第一章：爬虫基础简介

最新推荐文章于 2024-07-21 22:27:18 发布

amazing_zyy

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量124

点赞数

分类专栏： python爬虫学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46160970/article/details/108043922

版权

python爬虫学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第一章：爬虫基础简介

1.爬虫使用场景分类

通用爬虫：
爬取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫：
是建立在通用爬虫的基础上，抓取的是页面中特定的局部内容
增量式爬虫：
检测网站中数据更新的情况，智慧抓取网站中最新更新出来的数据

2.爬虫的矛与盾

3.反爬机制

门户网站，可以通过指定响应的策略或者技术手段，防止爬虫程序进行网站数据的爬取

4.反反爬策略

破解门户网站具备的反爬机制，从而可以获取门户网站数据

5. robots.txt协议（一种反爬机制）

规定网站中那些数据可以爬取那些数据不可以被爬取

6.http协议

就是服务器跟客户端交互的一种形式

常用请求头信息
User-Agent: 请求载体的身份标识
Connection: 请求完毕后，是断开连接还是保持连接
常用响应头信息
Content-Type: 服务器响应客户端的数据类型
https协议
表示安全的超文本传输协议（传输的信息进行了数据加密）
加密方式
（1）对称秘钥加密
在客户端进行加密，将加密后的数据和解密方式（秘钥）发送给服务器，服务器通过秘钥解密获取数据
弊端：数据被拦截时会暴露信息
（2）非对称秘钥加密
在服务器确定加密方式（创建秘钥对：公钥和私钥），服务器将私钥发送给客户端，客户端通过私钥加密后将加密后的数据传递给服务器，服务器通过公钥解密获取数据
好处：数据传输过程中不会暴露解密方式
弊端：效率比较低，向客户端发送私钥时有被劫持的风险（可能在传输路途中被篡改）
（3）证书秘钥加密
在非对称加密中加入第三方认证机构，服务器将私钥发送给认证机构，
认证机构对私钥进行认证，添加数字签名（防伪标记），然后将签名后的私钥发送给客户端，
确保客户端拿到的私钥时从服务器端发送过来的
https采用的证书加密方式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章：爬虫基础简介

第一章：爬虫基础简介1.爬虫使用场景分类通用爬虫：爬取系统重要组成部分。抓取的是一整张页面数据。聚焦爬虫：是建立在通用爬虫的基础上，抓取的是页面中特定的局部内容增量式爬虫：检测网站中数据更新的情况，智慧抓取网站中最新更新出来的数据2.爬虫的矛与盾3.反爬机制门户网站，可以通过指定响应的策略或者技术手段，防止爬虫程序进行网站数据的爬取4.反反爬策略破解门户网站具备的反爬机制，从而可以获取门户网站数据5. robots.txt协议（一种反爬机制）规定网站中那些数据可以爬取那些数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。