网络爬虫的robots协议

最新推荐文章于 2023-11-14 23:52:09 发布

NY_YN

最新推荐文章于 2023-11-14 23:52:09 发布

阅读量579

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/NY_YN/article/details/111562894

版权

网络爬虫的尺寸

网络爬虫引发的问题：
1.服务器性能骚扰问题：受限于便携水平和目的，网络爬虫将会为web服务器带来巨大的资源开销
2.内容层面法律风险：服务器上的数据有产权所有，网络爬虫获取数据后牟利将带来法律风险
3.个人隐私泄露风险：网络爬虫可能具备简单访问控制的能力，获得被保护数据从而泄露个人隐私

限制网络爬虫的方式

方式	说明	缺陷
来源审查	判断User-Agent进行限制，检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问	对维护网站的人员技术能力要求较高
发布公告：Robots协议	告知所有爬取网站的爬取测量，要求爬虫遵守	约束力不强

Robots协议（Robots Exclusion Standard)
1.作用：网站告知网络爬虫哪些页面可以爬取，哪些不行
2.基本语法：

#注释，*代表所有，/代表根目录
User-agent:*
Disallow:/

3.形式：在网站根目录下的robots.txt协议
4.遵守方式:
网络爬虫：自动或人工识别robots.txt，再进行内容爬取
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险
5.对Robots协议的理解

如果写小程序，访问量很小，类似人类访问的话，可以不遵守robots协议

关注