爬虫基础01 认识爬虫

最新推荐文章于 2024-06-14 10:41:07 发布

yyyyhjjj

最新推荐文章于 2024-06-14 10:41:07 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫基础文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_46320417/article/details/132376294

版权

爬虫基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 爬虫概述

爬虫：网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。其本质就是通过编写程序拟浏览器上网，抓取数据的过程。

2. 爬虫特点

在法律中都是不被禁止的；
具有违法风险；
爬虫是一个博弈的过程（反爬机制、反反爬策略）
robots协议：规定了网站中哪些数据可以被爬取哪些数据不可以被爬取，属于一个君子协议。

3. 爬虫分类

按照系统结构和实现技术，大致可以分为以下几种类型：

通用爬虫：通常抓取互联网整张页面数据；
聚焦爬虫：选择性地爬取与预定主题相关的网络爬虫；
增量式爬虫：监测网站中数据的更新情况，通常只抓取网站中最新更新的数据；
深层网络爬虫：通常通过关键字检索获取内容。

名称	场景	特点	缺点
通用网络爬虫	门户站点搜索引擎、大型Web服务提供商采集数据	爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式，爬取互联网上的所有数据	爬虫速度和存储空间要求高、刷新页面的时间长
聚焦网络爬虫	又称主题网络爬虫，只爬行特定的数据，商品比价	极大节省了硬件和网络资源，页面更新快
增量式网络爬虫	只抓取刚刚更新的数据	数据下载量少，及时更新已爬行的网页，减少时间可空间上的耗费、爬取到的都是最新页面	增加了爬行算法的复杂度和实现难度
深层网络爬虫		大部分内容不能通过静态链接获取，隐藏在搜索表单后，用户提交一些关键词才能获得

按实现方式，大致可以分为以下几种类型：

服务器渲染爬虫：在服务器直接把数据和html整合在一起，统一返回浏览器（在页面中可以看到数据）
客户端渲染爬虫：第一请求只返回html框架、第二次请求拿到数据，进行数据展示（在页面源码中，看不到数据）

4. http协议

超文本传输协议(http协议)是一个简单的请求-响应协议，它通常运行在TCP协议之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。

4.1 http请求

请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成，常用的请求方式包括get请求和post请求。

4.2 get请求

GET / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Connection: keep-alive
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8

4.3 post请求

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

5. 开发中常用请求头属性

请求头属性	描述
Host	服务器地址
User-Agent	请求载体的身份标识
Connection	请求完毕后，是断开连接还是保持连接

5.1 get和post区别

get提交的数据会放在URL之后（以?分割），参数之间以&相连；post方法是把提交的数据放在HTTP包的Body中
get提交的数据大小有限制（因为浏览器对URL的长度有限制）；post提交的数据没有限制
get提交数据，会带来安全问题；post相对安全

5.2 http响应

一般情况下，服务器接收并处理请求后会返回一个响应消息。HTTP响应由四个部分组成：状态行、消息报头、空行和响应正文

5.3 开发中常用响应头属性

响应头属性	描述
Content-Type	服务器响应给客户端的数据类型

5.4 响应状态码

状态码	描述
200	客户端请求成功
400	客户端请求有语法错误，不能被服务器所理解
401	请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403	服务器收到请求，但是拒绝提供服务
404	请求资源不存在，或输入了错误的URL
500	服务器发生不可预期的错误
503	服务器当前不能处理客户端的请求，一段时间后可能恢复正常

6. 爬虫库/框架

6.1 请求库

模块/框架	描述
urllib	urllib库用于操作网页 URL，并对网页的内容进行抓取处理。操作较为复杂，缺少实用的高级功能
requests	在urllib基础上进行封装，提供更加便捷的方法
selenium	自动化测试框架，解决requests无法执行javaScript代码的问题

6.2 解析库