爬虫学习笔记num1
爬虫分类
1.通用爬虫:抓取系统的重要做成部分,一整张页面数据。
2.聚焦爬虫:建立在通用爬虫的上,抓取页面的特定局部内容。
3.增量式爬虫:检测网站中的数据是否额更新,抓取更新的部分。
反爬机制
门户网站通过策略或手段,来阻止爬虫程序爬取网站的数据
robots.txt协议:规定了网站那些数据可爬取。(君子协议)(说明书)
反反爬策略
爬虫通过则略或手段,破解反爬机制,来爬取网页的数据
HTTP协议
超文本传输协议,吴福气与客户端数据交互的一种形式。
常用的请求头信息
–User-Agent
请求载体的身份标识,(操作系统+浏览器的版本号)
–connection
请求完毕后是断开连接还是保持连接。
HTTPS协议
安全的超文本传输协议(进行数据加密)
加密方式:
1、对称加密:由客服端将秘钥和密文一起发送给服务器(缺点容易被窃取密文和秘钥,导致篡改密文)
2、非对称加密:客户端用公钥加密,服务器拥有私钥进行解密。(公钥任何人都可以获得,私钥只有服务器拥有。)
3、证书加密:由第三方证书认证机构进行数字签名(防伪)