1. 爬虫的风险:
1.1 爬虫干扰了被访问网站的正常运营。
1.2 爬虫抓取了收到法律保护的特定类型的数据或信息。
2. 爬虫需要知道的事:
2.1 时常优化自己的程序,避免干扰到被访问网站的正常运行。
2.2 使用,传播爬取到的数据时,不能涉及到用户隐私,商业机密等信息。
3. 爬虫分类:
3.1 通用爬虫:抓取一整张页面的数据。
3.2 聚焦爬虫:抓取页面中特定的局部内容。
3.2 增量式爬虫:只爬取网站中最新更新的数据。
4. 反爬机制:防止爬虫程序对网站进行数据爬取。
5. 反反爬策略:爬虫程序通过相应的策略或技术手段,破解反爬机制。
6. robots.txt协议:君子协议,即网站的哪些内容是可以被允许爬取,哪些不能被爬取。如https://xx.xx.xx/robots.txt。
7. http协议:服务器与客户端进行数据交互的一种方式。
常用请求头信息:
User-Agent:请求载体的身份标识。
Connection:请求完毕后,是断开链接还是保持链接。
常用响应头信息:
Content-Type:服务器响应给客户端的数据类型。
8. https:安全(证书秘钥加密)的超文本传输协议。
9. 加密分类:对称秘钥加密(客户端加密传递给服务器端(服务器接收:加密方式+密文)),非对称秘钥加密(服务器端(私钥)加密传递给客户端(客户端接收:加密方式(公钥))),证书秘钥加密(https)。