Robots-网络爬虫排除标准协议

最新推荐文章于 2025-03-18 15:36:29 发布

smygirlfriend

最新推荐文章于 2025-03-18 15:36:29 发布

阅读量778

点赞数

分类专栏： python爬虫文章标签： python http

本文链接：https://blog.csdn.net/mmqgirlfriend/article/details/106746014

版权

7 篇文章

订阅专栏

本文深入解析RobotsExclusionStandard，即网络爬虫排除标准，解释了其如何帮助网站管理者指导爬虫行为，包括哪些页面可以被爬取，哪些应当被忽略。通过robots.txt文件，网站可以有效地控制搜索引擎和爬虫的访问，保护敏感信息，同时优化SEO效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作用：网站告知爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

https://www.jd.com/robots.txt
京东的robots协议
Robosts协议的基本语法：
*代表所有
/代表根目录

网络爬虫：自动或人工识别robots.txt文件，再进行内容爬取
约束性：robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

爬取网页，玩转网页	访问量很小：可以遵守/访问量较大：建议遵守
爬取网页，爬取系列网站	非商业偶尔：建议遵守 /商业利益：必须遵守
爬取全网	必须遵守

类人类行为可不参考robots协议