spider之robots协议（新人小结）

最新推荐文章于 2022-02-23 17:22:44 发布

虹蓝紫

最新推荐文章于 2022-02-23 17:22:44 发布

阅读量1.4k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_41096887/article/details/80904316

版权

网络爬虫与信息提取

**要求掌握定向网络数据爬取和网页解析的基本能力
希望能够坚持的理念
The website is API……….
想再多磨叽几嘴，还是算了吧，暴露我学艺不精的事实

一个网站想限制网络爬虫，有两个方法：一个是审查来源，一个是通过robots协议来进行告知

Robots.txt
全称：Robots Exclusion Standard 网络爬虫排除标准
其中一个很重要的作用：网站告知网络爬虫哪些网页可以爬取，哪些不行
形式：在网站根目录下的的robots.txt文件
eg:
京东的robots协议：
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/.html?
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
解释下撒
￥对于任意网络爬虫均适用
￥任何网络爬虫都不允许爬取？开头的路径
￥任何爬虫都不允许爬取/pop/*.html
……….
最后是些被禁的爬虫：易淘，惠惠什么的，不知道，不了解，不清楚
划重点
#教育部网站没有robots协议，我就在这，你来爬啊，爬到算我的 lol;

Robots协议的使用
网络爬虫：自动或人工识别Robots协议，再进行内容爬取；

个人对robots协议的理解

 - 爬取网页，访问量较小是可遵守，较大时建议遵守
 - 爬取网站或是一系列网站：非商业利益且偶尔爬取，建议遵守。涉及商业利益时，必须遵守
 - 爬取全网时，必须遵守

忘。。忘了
查询robots协议
网站名/robots.txt
不一定有效，但主流网站都是奏效的

最后一点
类人类行为不需要遵守robots协议
个人理解就是那种访问数据次数有限，并且对服务器影响很少的程序

see you!!!
God bless you !

虹蓝紫

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫