2.1网络爬虫引发的问题
2.1.1 网络爬虫的尺度
2.1.2网络爬虫的法律风险
- 服务器上的数据产权归属
- 网络爬虫获取数据后牟利将带来法律风险
2.1.2网络爬虫泄露隐私
- 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私
2.1.3网络爬虫引发的问题
- 骚扰问题
- 法律问题
- 隐私泄露
2.1.3对待网络爬虫的限制
- 服务器 网站的所有者:通过来源审查限制网络爬虫
- 发布公告:Robots协议
2.2Robots协议
案例:京东的Robots协议
https://www.jd.com/robots.txt
第二行表示任何路径都不能访问/?*开头的路径
2.3Robots协议的遵守方式
类人行为可不参考Robots协议
例如一天内仅仅访问几次