1. 爬虫概述
爬虫:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。其本质就是通过编写程序拟浏览器上网,抓取数据的过程。
2. 爬虫特点
-
在法律中都是不被禁止的;
-
具有违法风险;
-
爬虫是一个博弈的过程(反爬机制、反反爬策略)
-
robots协议:规定了网站中哪些数据可以被爬取哪些数据不可以被爬取,属于一个君子协议。
3. 爬虫分类
按照系统结构和实现技术,大致可以分为以下几种类型:
-
通用爬虫:通常抓取互联网整张页面数据;
-
聚焦爬虫:选择性地爬取与预定主题相关的网络爬虫;
-
增量式爬虫:监测网站中数据的更新情况,通常只抓取网站中最新更新的数据;
-
深层网络爬虫:通常通过关键字检索获取内容。
名称 | 场景 | 特点 | 缺点 |
---|---|---|---|
通用网络爬虫 | 门户站点搜索引擎、大型Web服务提供商采集数据 | 爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式,爬取互联网上的所有数据 | 爬虫速度和存储空间要求高、刷新页面的时间长 |
聚焦网络爬虫 | 又称主题网络爬虫,只爬行特定的数据,商品比价 | 极大 节省了硬件和网络资源,页面更新快 | |
增量式网络爬虫 | 只抓取刚刚更新的数据 | 数据下载量少,及时更新已爬行的网页,减少时间可空间上的耗费、爬取到的都是最新页面 | 增加了爬行算法的复杂度和实现难度 |
深层网络爬虫 | 大部分内容不能通过静态链接获取,隐藏在搜索表单后,用户提交一些关键词才能获得 |
按实现方式,大致可以分为以下几种类型:
-
服务器渲染爬虫:在服务器直接把数据和html整合在一起,统一返回浏览器(在页面中可以看到数据)
-
客户端渲染爬虫:第一请求只返回html框架、第二次请求拿到数据,进行数据展示(在页面源码中,看不到数据)
4. http协议
超文本传输协议(http协议)是一个简单的请求-响应协议,它通常运行在TCP协议之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。
4.1 http请求
请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,常用的请求方式包括get请求和post请求。
4.2 get请求
GET / HTTP/1.1 Host: www.baidu.com User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36 Connection: keep-alive Accept-Encoding: gzip, deflate, sdch Accept-Language: zh-CN,zh;q=0.8
4.3 post请求
POST / HTTP/1.1 Host: www.wrox.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1 Content-Type: application/x-www-form-urlencoded Content-Length: 40 Connection: Keep-Alive name=Professional%20Ajax&publisher=Wiley
5. 开发中常用请求头属性
请求头属性 | 描述 |
---|---|
Host | 服务器地址 |
User-Agent | 请求载体的身份标识 |
Connection | 请求完毕后,是断开连接还是保持连接 |
5.1 get和post区别
-
get提交的数据会放在URL之后(以?分割),参数之间以&相连;post方法是把提交的数据放在HTTP包的Body中
-
get提交的数据大小有限制(因为浏览器对URL的长度有限制);post提交的数据没有限制
-
get提交数据,会带来安全问题;post相对安全
5.2 http响应
一般情况下,服务器接收并处理请求后会返回一个响应消息。HTTP响应由四个部分组成:状态行、消息报头、空行和响应正文
5.3 开发中常用响应头属性
响应头属性 | 描述 |
---|---|
Content-Type | 服务器响应给客户端的数据类型 |
5.4 响应状态码
状态码 | 描述 |
---|---|
200 | 客户端请求成功 |
400 | 客户端请求有语法错误,不能被服务器所理解 |
401 | 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 |
403 | 服务器收到请求,但是拒绝提供服务 |
404 | 请求资源不存在,或输入了错误的URL |
500 | 服务器发生不可预期的错误 |
503 | 服务器当前不能处理客户端的请求,一段时间后可能恢复正常 |
6. 爬虫库/框架
6.1 请求库
模块/框架 | 描述 |
---|---|
urllib | urllib库用于操作网页 URL,并对网页的内容进行抓取处理。操作较为复杂,缺少实用的高级功能 |
requests | 在urllib基础上进行封装,提供更加便捷的方法 |
selenium | 自动化测试框架,解决requests无法执行javaScript代码的问题 |
6.2 解析库
模块/框架 | 描述 |
---|---|
Beautiful Soup | 功能强大的html解析库,整合了一些常用爬虫功能。 |
lxml | xpath解析库 |
6.3 爬虫框架
框架 | 描述 |
---|---|
Scrapy | 强大的爬虫框架,可以满足绝大多数爬虫需求 |