什么是robots.txt文件?

最新推荐文章于 2024-08-14 16:31:41 发布

conanlwl

最新推荐文章于 2024-08-14 16:31:41 发布

阅读量1.1k

点赞数

分类专栏： myBlog System 文章标签：搜索引擎 web internet html url 网络

本文链接：https://blog.csdn.net/conanlwl/article/details/1701897

版权

robots.txt文件是网站管理员用来控制搜索引擎爬虫抓取网站内容的协议。它通常放在网站根目录下，通过指定User-agent和Disallow字段，决定哪些页面允许或禁止被爬虫访问。例如，'User-agent: * Disallow: /'会阻止所有爬虫访问整个网站，而'User-agent: BadBot Disallow: /'则仅禁止BadBot爬虫访问。

摘要由CSDN通过智能技术生成

一．什么是robots.txt文件?

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?

robots.txt文件应该放在网站根目录下。举例来说，当robots访问一个网站（比如 http://www.abc.com）时，首先会检查该网站中是否存在 http://www.abc.com/robots.txt这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

网站 URL 相应的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/??http://w3.org/robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"。