python爬虫知识（一）

最新推荐文章于 2022-05-27 16:21:17 发布

Ace.三阶斗尊

最新推荐文章于 2022-05-27 16:21:17 发布

阅读量145

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_42231156/article/details/113786239

版权

38 篇文章 2 订阅

订阅专栏

1. 爬虫的风险：

1.1 爬虫干扰了被访问网站的正常运营。

1.2 爬虫抓取了收到法律保护的特定类型的数据或信息。

2. 爬虫需要知道的事：

2.1 时常优化自己的程序，避免干扰到被访问网站的正常运行。

2.2 使用，传播爬取到的数据时，不能涉及到用户隐私，商业机密等信息。

3. 爬虫分类：

3.1 通用爬虫：抓取一整张页面的数据。

3.2 聚焦爬虫：抓取页面中特定的局部内容。

3.2 增量式爬虫：只爬取网站中最新更新的数据。

4. 反爬机制：防止爬虫程序对网站进行数据爬取。

5. 反反爬策略：爬虫程序通过相应的策略或技术手段，破解反爬机制。

6. robots.txt协议：君子协议，即网站的哪些内容是可以被允许爬取，哪些不能被爬取。如https://xx.xx.xx/robots.txt。

7. http协议：服务器与客户端进行数据交互的一种方式。

常用请求头信息：
    User-Agent:请求载体的身份标识。
    Connection:请求完毕后，是断开链接还是保持链接。
常用响应头信息：
    Content-Type:服务器响应给客户端的数据类型。

8. https：安全（证书秘钥加密）的超文本传输协议。

9. 加密分类：对称秘钥加密（客户端加密传递给服务器端（服务器接收：加密方式+密文）），非对称秘钥加密（服务器端（私钥）加密传递给客户端（客户端接收：加密方式（公钥））），证书秘钥加密（https）。

关注