爬虫学习笔记num1

爬虫学习笔记num1

爬虫分类

1.通用爬虫:抓取系统的重要做成部分,一整张页面数据。
2.聚焦爬虫:建立在通用爬虫的上,抓取页面的特定局部内容。
3.增量式爬虫:检测网站中的数据是否额更新,抓取更新的部分。

反爬机制

门户网站通过策略或手段,来阻止爬虫程序爬取网站的数据
robots.txt协议:规定了网站那些数据可爬取。(君子协议)(说明书)

反反爬策略

爬虫通过则略或手段,破解反爬机制,来爬取网页的数据

HTTP协议

超文本传输协议,吴福气与客户端数据交互的一种形式。

常用的请求头信息

–User-Agent
请求载体的身份标识,(操作系统+浏览器的版本号)
–connection
请求完毕后是断开连接还是保持连接。

HTTPS协议

安全的超文本传输协议(进行数据加密)
加密方式:
1、对称加密:由客服端将秘钥和密文一起发送给服务器(缺点容易被窃取密文和秘钥,导致篡改密文)
2、非对称加密:客户端用公钥加密,服务器拥有私钥进行解密。(公钥任何人都可以获得,私钥只有服务器拥有。)
3、证书加密:由第三方证书认证机构进行数字签名(防伪)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值