robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots文件
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。
该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent: Baiduspider
Disallow: /
# 注释信息
User-agent: baiduspider
Disallow: /
- User-agent
该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为
*
,则对任何robot均有效,
注意:在robots.txt文件中,"User-agent:*"
这样的记录只能有一条。如果在robots.txt文件中,加入"User-agent:SomeBot"
和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-