网络爬虫
文章平均质量分 74
# 网络爬虫
ElegantCodingWH
子非吾,焉之吾之乐也
展开
-
模拟器设置代理报错:err_proxy_connection_failed 已解决
一、保证信息没有输入错误首先,你要保证你的代理IP是你电脑的IP,不要输错,另外,端口号也要和Fiddler设置的端口号一样。至于如何查看本地IP,打开cmd,输入 ipconfig 获取你的ip4地址:二、设置Fiddler然后重启Fiddler,一定要重启!!!...原创 2019-11-09 17:29:12 · 32170 阅读 · 19 评论 -
CSRF Token的由来、介绍以及应对策略
转载来源:https://www.ibm.com/developerworks/cn/web/1102_niugang_csrf/#icomments一、CSRF 背景与介绍CSRF(Cross Site Request Forgery, 跨站域请求伪造)是一种网络的攻击方式,它在 2007 年曾被列为互联网 20 大安全隐患之一。其他安全隐患,比如 SQL 脚本注入,跨站域脚本攻击等在近年来...转载 2019-11-07 19:49:47 · 1892 阅读 · 0 评论 -
python RequestsCookieJar 与 字典 相互转换
#将CookieJar转为字典:cookies = requests.utils.dict_from_cookiejar(r.cookies)#将字典转为CookieJar:cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)#其中cookie_dict是要转换...转载 2019-11-06 20:51:57 · 11227 阅读 · 0 评论 -
fiddler 如何查看post和get请求,以及表单和参数
1.如何查看post和get请求上面是post请求,下面是get请求。2.查看表单和参数需要先点击WebForms:上面中的表单内容是怎样就是怎么,比如上面的data中的content的内容有<p></p>,那么我们构造表单的时候也要加上<p></p>...原创 2019-11-06 17:36:52 · 6586 阅读 · 0 评论 -
TypeError: 'module' object is not callable
原因导入模块倒反了:应该是:from ua_ip import *写成了:import ua_ip原创 2019-10-29 21:16:59 · 128 阅读 · 0 评论 -
爬虫---获取子模块的子模块代码
先获取上面部分整个代码,先用正则提取,获取里面的每个li标签内的内容可以转为html格式,再用xpath一定不要两次都用xpath记录一下!!!原创 2019-10-27 19:53:14 · 195 阅读 · 0 评论 -
如何在urllib中使用xpath表达式
一、安装lxml模块(1)按Ctrl + R键,然后输入cmd,这样进入了黑窗口。(2)输入以下代码: pip install lxml(3)等待安装完成二、实例演示 import urllib.requestfrom lxml import etreedata = urllib.request.urlopen('https://www.baidu.com').read().d...原创 2019-04-05 18:18:50 · 1095 阅读 · 0 评论 -
网络爬虫---爬取MOOC课程信息并做一个可视化
文章目录爬取MOOC课程信息并做一个可视化一、目标二、知识要求三、思路分析1.观察网页源代码,看里面是否有关于具体课程的信息2.抓包分析与自动翻页3.用PhantonJS构造模拟浏览器4.可视化四、爬取MOOC课程信息并做一个可视化实战1.对代码做一下解释2.具体代码3.可视化展示爬取MOOC课程信息并做一个可视化一、目标根据你设置的关键字,也就相当于你到mooc首页的搜索引擎中要搜索的关键...原创 2019-04-15 20:25:47 · 5443 阅读 · 11 评论 -
网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化
用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化文章目录用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化一、前言二、知识要求三、过程分析1.观察主页面和每个电脑界面的网址2.寻找每个电脑的id3.找到存放电脑的价格和评论数的信息4.爬取信息的思路四、urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化实战五、可视化结果一、前言马上就要高考了,很多同学在高考...原创 2019-04-07 16:29:12 · 2511 阅读 · 0 评论 -
对爬虫知识的系统总结
对爬虫知识的系统总结文章目录对爬虫知识的系统总结一、学习时间二、知识点概要1.信息匹配2.urllib模块的使用3.抓包分析4.scrapy框架的使用5.模拟浏览器的使用6.分布式爬虫三、分向介绍每个知识点1.信息匹配2.urllib模块的使用3.抓包分析4.scrapy框架的使用5.模拟浏览器的使用一、学习时间我从3月6号开始学习爬虫,也是在那天我写了关于爬虫的第一篇博客,到现在4月13号...原创 2019-04-16 18:52:18 · 453 阅读 · 1 评论 -
网络爬虫---抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享)
一、抓包分析1.下载工具并安装如果我们要进行抓包分析,首先,我们必须要有一款抓包的工具,只有用工具抓到包,我们才能进行分析,在这里我介绍一款抓包软件Fiddler,我这里有这个软件的分享:链接:https://pan.baidu.com/s/1JvJvH7wfRLzALluOrOlcvQ提取码:9099安装不需要过多的说,按照上面提示的步骤装就可以了。2.Fiddler工具的使用首先...原创 2019-04-14 16:23:13 · 4400 阅读 · 1 评论 -
网络爬虫---对于scrapy框架中的Request()、FormRequest()、FormRequest.from_response()做一个小结
一、Request()类的实例化对于爬取普通网站,不需要验证码,不需要登入的界面,我们一般用scrapy.Request类直接去爬取信息就行,下面是Request类的定义:class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, ...原创 2019-04-05 14:55:26 · 11580 阅读 · 4 评论 -
网络爬虫---scrapy项目中Request()的meta参数详解
1.scrapy项目中Request()的参数meta的解释Request的参数meta作用是将meta中的信息传递个下一个回调函数,使用过程可以理解为:'''如果回调函数中,需要用到上一个函数中的数据,那我们可以把该数据赋值给变量meta,让它传给回调函数,但是meta只接受字典类型的数据,所以,我们要把待传递的信息改成字典形式,即:meta = {'key1': 'value1'...原创 2019-03-24 17:14:10 · 1052 阅读 · 0 评论 -
Python网络爬虫---urllib模块、超时设置、自动模拟http请求之get方法和post方法
Python网络爬虫1.urllib基础urlretrieve(“网址”, &quot;本地文件存储地址&quot;)方法,用来将文件下载到指定路径urlcleanup()方法,用来清除内存中爬取的网页内容urlopen()方法,用来爬取网页信息info()方法,看爬取的网页的简介信息getcode()方法,用来返回网页爬取的状态码,如果返回200表示处于爬取状态,反之,不处于geturl()方法,用...原创 2019-03-08 17:59:13 · 1014 阅读 · 0 评论 -
Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战
Python网络爬虫1.爬虫的异常处理实战说明:爬虫在运行过程中会遇到很多异常,而通过异常处理可以使我们的爬虫变得健壮,不轻易崩溃。异常处理我们主要是通过URLError和HTTPError这两个异常处理类来处理异常的。(1)URLError只会返回异常原因(2)HTTPError会返回异常状态码和异常原因下面介绍几种常见的状态码:200 正常爬取301 Moved Permane...原创 2019-03-09 11:19:29 · 1112 阅读 · 0 评论 -
Python网络爬虫---爬取CSND博客首页信息实战
Python之爬取CSND博客1.进入csdn博客首页,点击鼠标右键,点击查看网页源代码,然后,在源代码网页中按ctrl + f键,会出现搜索框。2.在博客首页中复制一些新闻的标题,然后在搜索框中搜索复制的标题,找到搜索到的内容,观察该新闻的连接特征。再多换几个标题试试。3.换了几个标题之后你会发现大多数的连接的局部地方,都只是红色部分的连接不一样,其余部分一样。那这样我们可以设置正则表达...原创 2019-03-09 13:42:17 · 576 阅读 · 0 评论 -
网络爬虫---爬取糗事百科段子实战
Python网络爬虫1.知识要求掌握python基础语法熟悉urllib模块知识会使用浏览器伪装技术如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下。2.爬取糗事百科段子实战(1)首先,我们按照之前爬取csnd首页的信息的方式,去爬取糗事百科段子相关内容,你会发现运行后程序报错,看错误原因,...原创 2019-03-11 11:22:43 · 1957 阅读 · 0 评论 -
网络爬虫---爬取CSDN个人博客,增加博客阅读量实战(内含用户代理池知识)
Python网络爬虫1.知识要求掌握python基础语法熟悉urllib模块知识异常处理如果你对相关知识有些遗忘,可以点上面的链接,熟悉一下相关知识点。2.用户代理池说明:如果我们只是单一的用一个用户代理去不断爬取博客,来增加访问量,会被网站后台发现,可能导致你的用户代理在一段时间内禁止访问该博客,很不安全。所以,我们要多建立几个用户代理,每次随机的选一个用户代理去访问博客,这样...原创 2019-03-11 17:12:59 · 1614 阅读 · 0 评论 -
网络爬虫---IP代理池与用户代理的组合使用
Python网络爬虫1.知识要求掌握python基础语法熟悉urllib模块知识异常处理如果你对相关知识有些遗忘,可以点上面的链接,熟悉一下相关知识点。2.IP代理池(1)为什么要使用IP代理?因为,你如果一直用用户代理的方式去爬取一个网站,爬取次数多了,很容易被识别出来是爬虫,导致用户代理被封,而你用不同浏览器的用户代理,实际上都是使用同一IP地址。如果我们频繁切换IP地址,...原创 2019-03-15 22:03:57 · 1849 阅读 · 0 评论 -
网络爬虫---XPath表达式
1.XPath表达式与正则表达式的简单比较(1)XPath表达式的执行效率更高(2)正则表达式的功能会更加强大一些(3)一般来说,优先选用XPath表达式,XPath表达式解决不了的再用正则表达式取解决2.XPath表达式基础知识/ 逐层提取text() 提取标签下的文本//标签名xx ...原创 2019-03-18 17:09:22 · 267 阅读 · 0 评论 -
网络爬虫---用scrapy框架爬取当当网商品信息实战将信息写入数据库(主要是对scrapy框架的熟悉和初步使用)
用scrapy框架爬取当当网商品信息实战1.用scrapy框架创建项目(1)打开cmd,你想到到哪里创建scrapy爬虫项目,就用cd指令,进入到相应的路径。(2)输入:scrapy startproject dangdang,后面的dangdang是项目名,这样你就建立了一个scrapy爬虫项目。(3)2.scrapy项目文件简介spiders文件夹用来存放爬虫文件,里面的__in...原创 2019-03-19 14:00:29 · 2500 阅读 · 3 评论 -
网络爬虫---用scrapy框架爬取腾讯新闻实战
用scrapy框架爬取腾讯新闻实战一、知识要求掌握python基础语法异常处理会建立和简单使用scrapy框架会抓包分析二、爬取腾讯新闻实战1.通过分析获取存放每个新闻链接的网址(1)分析网页源代码中是否有新闻的链接:通过分析,我们发现网页源代码中不含有新闻链接,但是,有很多js包,由此,我们自然的想到抓包分析。(2)抓包分析:①打开按装过代理的浏览器,我这里是火狐浏...原创 2019-03-24 13:31:48 · 6201 阅读 · 5 评论 -
urllib.request详细介绍
参考博客原址:https://blog.csdn.net/bo_mask/article/details/76067790在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接 ...转载 2019-03-24 15:18:46 · 55320 阅读 · 8 评论 -
Python之网络爬虫---正则表达式
Python之网络爬虫1.网络爬虫概念说明:网络爬虫就是从互联网中定向或者不定向的采集信息的一种程序。网络爬虫有很多类型:通用网络爬虫、聚焦网络爬虫等等应用:(1)搜索引擎(2)采集金融数据(3)采取商品信息(4)自动过滤广告(5)采集信息,进行相关数据分析2.正则表达式说明:要用正则表达式,要导入模块inport re(1)原子说明:是正则表达式中最基本的单位,每个正则表...原创 2019-03-06 20:24:53 · 2823 阅读 · 6 评论