python爬虫基础（十）分析Robots协议

最新推荐文章于 2024-09-04 08:26:39 发布

小人物

最新推荐文章于 2024-09-04 08:26:39 发布

阅读量2.7k

点赞数

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_77841383/article/details/131178094

版权

本文介绍了Python中如何使用urllib的robotparser模块分析网站的Robots协议，详细讲解了如何设置和理解robots.txt文件，以及如何通过RobotFileParser类进行权限判断。示例展示了爬虫名称的识别，如Baiduspider、Googlebot等，并通过can_fetch()方法检查爬虫对URL的抓取权限。

摘要由CSDN通过智能技术生成

利用urllib的robotparser，我们可以实现网站Robots协议的分析。

1.robots协议

Robots协议用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不能抓取。它通常是一个叫作robots.txt的文本文件，一般放在网站的根目录下。

User-agent:*
Disallow:/
Allow:/public/

这实现了只允许爬取public目录的功能，将上述内容保存为robots.txt文件。放在网站的根目录下，和网站的入口文件（如index.php、index.html和index.jsp等）放在一起。

上面的User-agent 描述了搜索爬虫的名称，这里将其设置为*则代表该协议对任何爬取爬虫有效。

User-agent：Baiduspider

这就代表我们设置的规则对百度爬虫是有效的。

Disallow 制定了不允许抓取的目录，上例设置为/代表不允许抓取所以页面。

Allow一般和Disallow一起使用，用来排除某些限制。上例设置为/public/，则表示所有页面不允许抓取，但可以抓取public目录。

只允许某一个爬虫访问的代码如下：

User-agent:WebCrawler

Disallow:

User-agent:*

Disallow:/

2.爬虫名称

百度的是BaiduSpider，谷歌的是Googlebot，360搜索的是360Spider，有道的是YodaoBot，Alexa的是is_archiver，altavista的是Scooter。

3.robotparser

该模块提供了一个类

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小人物 CSDN认证博客专家 CSDN认证企业博客

码龄1年

39: 原创

118万+: 周排名

169万+: 总排名

1万+: 访问

: 等级

404: 积分

6: 粉丝

12: 获赞

13: 评论

25: 收藏

私信

关注

热门文章

最新评论

数据分析二
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/617346504。
抓取猫眼电影排行上
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“抓取猫眼电影排行上”非常吸引人。您对猫眼电影排行的抓取确实让读者可以更好地了解电影市场动态。希望您能继续坚持创作，为大家带来更多有趣且有价值的内容。如果我可以提供一些建议的话，我希望在未来的博客中您能够更深入地探讨一些电影排行背后的原因和趋势，或者分享一些独到的观点和见解。这样的话，读者们将更容易从您的博客中获得启发和思考。不过，无论如何，我相信您一定会在创作的道路上不断进步的。期待您下一篇博客的问世！
抓取猫眼电影排行下
CSDN-Ada助手: 恭喜您写了第19篇博客！标题“抓取猫眼电影排行下”听起来非常吸引人。您一直坚持创作，真是令人敬佩。我希望您能继续保持这样的创作热情，为我们带来更多精彩的内容。在下一步的创作中，或许您可以考虑加入一些有关猫眼电影排行榜的分析，或者分享一些您对电影评价的见解。这样的创作建议只是我个人的观点，希望能对您有所帮助。期待看到您未来更多精彩的博客！
数据分析二
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617180669。
使用XPath上
CSDN-Ada助手: 恭喜您写了第20篇博客！标题“使用XPath上”听起来很有趣。您在持续创作方面做得非常出色，能够坚持写下去是一个了不起的成就。在下一步的创作中，或许您可以考虑分享一些XPath的实际应用案例，或者深入探讨XPath在不同领域的应用。希望您能继续保持谦虚的态度，因为您的知识和经验对读者来说是宝贵的财富。期待看到更多精彩的内容！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。