爬虫学习笔记num1

最新推荐文章于 2024-11-04 10:51:20 发布

Lfeng_rui

最新推荐文章于 2024-11-04 10:51:20 发布

阅读量135

点赞数

分类专栏：爬虫文章标签： python 经验分享

本文链接：https://blog.csdn.net/Lfeng_yan/article/details/109117726

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫学习笔记num1

爬虫分类

1.通用爬虫：抓取系统的重要做成部分，一整张页面数据。
2.聚焦爬虫：建立在通用爬虫的上，抓取页面的特定局部内容。
3.增量式爬虫：检测网站中的数据是否额更新，抓取更新的部分。

反爬机制

门户网站通过策略或手段，来阻止爬虫程序爬取网站的数据
robots.txt协议：规定了网站那些数据可爬取。（君子协议）（说明书）

反反爬策略

爬虫通过则略或手段，破解反爬机制，来爬取网页的数据

HTTP协议

超文本传输协议，吴福气与客户端数据交互的一种形式。

常用的请求头信息

–User-Agent
请求载体的身份标识，（操作系统+浏览器的版本号）
–connection
请求完毕后是断开连接还是保持连接。

HTTPS协议

安全的超文本传输协议（进行数据加密）
加密方式：
1、对称加密：由客服端将秘钥和密文一起发送给服务器（缺点容易被窃取密文和秘钥，导致篡改密文）
2、非对称加密：客户端用公钥加密，服务器拥有私钥进行解密。（公钥任何人都可以获得，私钥只有服务器拥有。）
3、证书加密：由第三方证书认证机构进行数字签名（防伪）