robots.txt 如何禁止蜘蛛(百度,360,搜狗,谷歌)搜索引擎获取页面内容

最新推荐文章于 2024-08-21 15:59:30 发布

程序小小生

最新推荐文章于 2024-08-21 15:59:30 发布

阅读量5.2k

点赞数

分类专栏：个人研究文章标签：百度搜索引擎 robots

本文链接：https://blog.csdn.net/cnpinpai/article/details/132075268

版权

本文介绍了搜索引擎的蜘蛛抓取原理，并详细讲解了robots.txt文件的用途、放置位置、格式及常见用法，包括禁止和允许访问的设置，帮助网站管理员控制搜索引擎抓取内容。

摘要由CSDN通过智能技术生成

什么是蜘蛛抓取

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt，在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。

robots.txt 放置位置

robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站(比如http://www.xxside.com)时，首先会检查该网站中是否存在http://www.xxside.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

robots.txt 格式

文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示：”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下。

User-agent:

该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为，则对任何robot均有效，在”robots.txt”文件中，”User-ag