搜索引擎爬虫访问权限规则：robots.txt介绍

最新推荐文章于 2022-03-01 17:10:00 发布

HibernatingKoala

最新推荐文章于 2022-03-01 17:10:00 发布

阅读量1.2k

点赞数

文章标签：搜索引擎 google yahoo 文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HibernatingKoala/article/details/2293610

版权

作者：冬眠的考拉
日期：2008年4月15日

robots.txt置于网站的跟目录下。爬虫根据此文件决定网站下的哪些页面是被授权抓取的。
robots.txt内容如下：

#example
User-agent:*
Disallow:/secure

意为对任何爬虫，禁止其访问/secure目录下的文件。

这篇文件是个最简单的介绍了，其实看参考文件即可，robots.txt十分容易理解。参考文献4中提到了
robots meta，“目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持”，Google不愧是专业啊。

参考文档：

[1] Yahoo!搜索日志：《Robots.txt 协议标准》介绍 http://ysearchblog.cn/2007/09/robotstxt.html

[2] A Standard for Robot Exclusion http://www.robotstxt.org/orig.html

[3] How do I prevent my site or certain subdirectories from being crawled? http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html

[4] 如何写robots.txt？ http://www.dunsh.org/2006/08/02/robotstxt/

HibernatingKoala

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎爬虫访问权限规则：robots.txt介绍

作者：冬眠的考拉日期：2008年4月15日robots.txt置于网站的跟目录下。爬虫根据此文件决定网站下的哪些页面是被授权抓取的。robots.txt内容如下：#exampleUser-agent:*Disallow:/secure 意为对任何爬虫，禁止其访问/secure目录下的文件。这篇文件是个最简单的介绍了，其实看参考文件即可，robots.txt十分容易理解。参考文献4
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。