爬虫准备工作
- 参考资料
- python网络数据采集
- 精通python爬虫框架Scrapy
- Python3网络爬虫
- Scrapy官方教程
- 前提知识
- url
- HTTP协议
- web前端,HTML,css,js
- ajax
- re,xpath
- xml
1、爬虫简介
- 定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区,更经常被称为网页追逐者),是按照一定的规则,自动的抓取万维网信息的程序或脚本
- 两大特征
- 能安按照作者要求下载数据或者内容
- 能自动在网络流窜
- 三大步骤
- 下载信息
- 提取正确的信息
- 根据一定的规则自动跳到另外的网页上执行上两步内容
- 爬虫分类
- 通用爬虫
- 专用爬虫(聚焦爬虫)
- python网络包简介
- python2.x:urllib,urllib2,urllib3,httplib,httplib2,requests
- python3.x:urllib,urllib3,httplib2,requests
2、urllib
-
包含模块
urllib.request:打开和读取urls urllib.error:包含urllib.request产生的常见错误,使用try捕捉 urllib.parse:包含解析url的方法 urllib.robotparse:解析robots.txt文件
-
网页编码问题的解决
chardet包: 可以自动检测页面文件的编码格式,但是不一定准确 需要安装: conda install chardet
-
urlopen的返回对象
- geturl:返回请求对象的url
- info:请求反馈对象的meta信息
- getcode:返回的http code
-
request.data的使用
-
访问网络的两种方法
- get: 利用参数给服务器传递信息
- 参数为dict,然后用parse编码
- post
一般向服务器传递参数,使用POST
POST把信息自动加密处理
我们使用post信息,需要使用data参数
使用post,意味着HTTP的请求头可能需要修改
Content—Type:application/x-www.from-urlencode
Content-Length:数据长度
简而言之,一旦更改请求方法,其他请求头部信息也应该与之相适应- urllib.parse.urlencode可以将字符串自动转换成上面的
- 为了更多的设置请求信息,单纯的通过urlopen 函数已经不太好用
- 需要利用request.Request类
-
urllib.error
- URLError产生的原因
没网
服务器连接失败
知不道指定服务器 - HTTPError,是URLError的一个子类
- 两者的区别
HTTPError是对应的HTTP请求的返回码 错误,如果返回的是400以上的,就引发HTTP错误 URLError对应的一般是网络出现问题,包括url问题
- URLError产生的原因
1、UserAgent
-
UserAgent:用户代理,简称UA,属于heads的一部分,服务器通过UA来判断访问者身份
-
常见的UA值,使用的时候可以直接复制粘贴,也可以用浏览器访问的时候抓包
PC端1、chrome Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36 Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11 Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16 2、Firefox Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0 Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10 3、Opera Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60 Opera/8.0 (Windows NT 5.1; U; en) Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50 4、Safari Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 5、360 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36 Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko 6、QQ浏览器 Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1