txt文本文件网站管理员创建指导网络机器人(通常是搜索引擎机器人)如何在网站上抓取页面。 机器人。 txt文件是机器人排除协议的一部分(代表),一组web标准调节机器人抓取网页,如何访问和索引内容,服务内容的用户。 代表还包括指令元的机器人以及页面、子目录,或站点范围内的说明搜索引擎应该如何对待链接(如“关注”或“nofollow”)。
在实践中,机器人。 txt文件显示某些用户代理(网页软件)是否能或不能爬的部分网站。 这些爬行指令规定“禁止”或“允许”的行为(或者全部)用户代理。
基本格式:
用户代理(用户代理名称):
不允许(URL字符串不能爬):
在一起,这两条线被认为是完整的机器人。 txt文件——尽管一个机器人文件可以包含多个行(即用户代理和指示。 ,不允许,允许,crawl-delays等等)。
在一个机器人。 txt文件,每组用户代理指令作为一组离散的出现由换行符分隔:
User agent directives specified by line breaks.
在一个机器人。 txt文件与多个用户代理的指令,每个禁止或允许规则只有适用于useragent(s)中指定的特定行break-separated集。如果文件包含一个规则适用于多个用户代理,一个爬虫将只有注意和遵循的指令最具体的组的指令。
这里有一个例子:
Robots.txt.png?mtime=20170427090303#asset:5201:large
Msnbot、discobot和发出声音都喊具体地说,这些用户代理只有注意指令的机器人。 txt文件。 所有其他用户代理将遵循用户代理的指示:*组。
示例robots . txt:
这里有一些机器人的例子。 txt在行动http://www.example.com网站:
机器人。 txt文件URL:http://www.example.com/robots.txt
阻止所有web爬虫程序的所有内容
用户代理:*
不允许:/
允许所有web爬虫访问所有内容
用户代理:*
不允许:
阻止特定的网络爬虫从特定的文件夹
用户代理:广告
不允许:/ example-subfolder /
阻止一个特定的网络爬虫特定的web页面
用户代理:Bingbot
不允许:/ example-subfolder / blocked-page.html
这个语法告诉只有Bing的履带(Bing用户代理名字)避免抓取特定页面:http://www.example.com/example-subfolder/blocked-page。
如何机器人。 三种工作吗?
搜索引擎有两个主要工作:
爬行web发现内容;
索引内容,以便它可以提供搜索寻找信息。
爬行网站,搜索引擎链接从一个网站到另一个——最终,爬到数十亿和网站的链接。 这种爬行行为有时被称为“搜索”。
后到达一个网站之前搜索,搜索爬虫将寻找一个机器人。 txt文件。 如果找到一个,履带将读取该文件之前继续通过页面。 因为机器人。 txt文件包含的信息如何搜索引擎应该爬行,信息发现将进一步指导履带行动在这个特定的网站。 如果机器人。 txt文件并不包含任何指示,不允许一个用户代理的活动(或如果该网站没有一个机器人。 txt文件),它将继续爬行网站的其它信息。
其他快速的机器人。 txt这:
(下面将更详细地讨论)
为了被发现,一个机器人。 txt文件必须放置在一个网站的顶级目录。
机器人。 txt是大小写敏感的:该文件必须被命名为“机器人。 txt”(不是机器人。 txt,机器人。 三、或以其他方式)。
一些用户代理(机器人)可以选择忽略你的机器人。 txt文件。 这是很普遍的更邪恶的爬虫机器人恶意软件或电子邮件地址抓取器。
/机器人。 txt文件是一个公开的:添加/机器人。 txt的任何根域看到网站的指示(如果该网站有一个机器人。 txt文件!) 这意味着任何人都可以看到你做什么页面或不想爬,所以不要使用它们来隐藏私人用户信息。
每个子域名根域使用单独的机器人。 txt文件。 这意味着,http://blog.example.com和http://example.com都应该有他们自己的机器人。 txt文件(在blog.example.com/robots.txt example.com/robots.txt)。
通常是一个最佳实践表明任何的位置站点地图与这个领域相关的底部的机器人。 txt文件。 这里有一个例子:
Sitemaps in robots.txt
机器人技术。 三种语法
机器人。 三种语法可以被认为是“语言”的机器人。 txt文件。 有五种常用术语中你可能遇到一个机器人文件。 它们包括:
用户代理:你给的特定web爬虫爬行指令(通常是一个搜索引擎)。 一个可以找到大多数用户代理列表在这里。
不允许:使用的命令告诉用户代理不抓取特定的URL。 只能填报一个“禁止:“线为每个URL。
允许(只适用于Googlebot):命令告诉广告它可以访问一个页面或文件夹尽管其母页面或者子文件夹可能不允许。
Crawl-delay:多少毫秒履带之前应该等待加载和抓取网站页面的内容。 请注意,广告并不承认这个命令,但是爬行速度可以在谷歌搜索设置控制台。
网站地图:用于调用任何XML站点地图(s)的位置与这个URL相关联。 请注意这个命令只支持通过谷歌,Bing和Yahoo的问。
模式匹配
当涉及到实际的url来阻止或允许,机器人。 txt文件可以相当复杂,因为它们允许使用模式匹配涵盖一系列可能的URL选项。 谷歌和必应尊重两个正则表达式可以用来识别页面或者子文件夹,一个SEO希望排除在外。 这两个字符是星号(*)和美元符号($)。
*是一个通配符,表示任何字符序列
$匹配的URL
谷歌提供了一个伟大的可能的模式匹配列表语法和例子在这里。
哪里来的机器人。 txt去站点吗?
为了确保你的机器人。 txt文件被发现,总是包括在您的主目录或根域。
你为什么需要robots . txt吗?
机器人。 txt文件控制爬虫访问你的网站的某些领域。 虽然这可以非常危险的,如果你不小心不允许Googlebot爬行你的整个网站(! !),有一些情况下,一个机器人。 txt文件可以非常方便的。
一些常见的用例包括:
防止重复内容出现在serp中(注意,元机器人通常是一个更好的选择)
保持整个网站的私人部分(例如,你的工程团队的测试站点)
保持内部搜索结果页面出现在一个公共搜索引擎
指定站点地图(s)的位置
阻止搜索引擎索引网站上的某些文件(图片、pdf等)。
指定一个爬延迟为了防止服务器超载时爬虫加载多个部分的内容
如果没有在你的网站上,你想控制的地区用户代理访问,你可能不需要一个机器人。 txt文件。
检查如果你有一个机器人。 txt文件
不知道你有一个机器人。 txt文件吗? 在根域简单的类型,然后添加/机器人。 txt的URL。 例如,文件位于moz.com/robots.txt Moz的机器人。
如果没有。 txt页面出现,你目前没有一个机器人(生活)。 txt页面。
如何创建一个机器人。 txt文件
如果你发现你没有机器人。 txt文件或想要改变你,创建一个是一个简单的过程。这篇文章从谷歌机器人穿过。 txt文件创建过程这个工具允许您测试您的文件是否正确设置。
找一些练习创建机器人文件吗?这篇博客走过一些互动的例子。
搜索引擎优化的最佳实践
确保你没有屏蔽任何内容或部分你想要爬你的网站。
在页面的链接被机器人。 txt不会跟随。 这意味着1。) 除非他们也与来自其他搜索engine-accessible页面(即页面没有阻止通过机器人。 txt、元机器人或其他),链接资源不会爬,不得被索引。 2)。 没有链接股本可以从阻塞页面传递给链接的目的地。 如果你有页面你希望股权被传递,使用不同的阻塞机制除了robots . txt。
不要使用机器人。 txt防止敏感数据(如私人用户信息)出现在搜索结果中。 因为其他页面可能包含私人信息的直接链接到页面(因此绕过机器人。 三种指令在根域或主页),它可能仍会索引。 如果你想阻止页面搜索结果,使用不同的方法密码保护或noindex元的指令。
某些搜索引擎有多个用户代理。 例如,谷歌使用有机搜索和Googlebot-Image图片搜索广告。 大多数用户代理相同的搜索引擎都遵循相同的规则所以没有需要指定指令为每个搜索引擎的多个爬虫,但是有能力做那么让你调整你的网站内容是如何爬。
搜索引擎将缓存的机器人。 三种内容,但通常更新缓存的内容至少一天一次。 如果你改变文件和要比发生更新更快,你可以提交你的机器人。 txt url来谷歌。
机器人。 txt和vs x-robots元机器人
这么多的机器人! 有什么区别这三种类型的机器人指令? 首先,机器人。 三是一个文本文件,而元,x-robots元指令。 超出他们实际是什么,这三个都具有不同的功能。 机器人。 txt规定网站或directory-wide爬行行为,而元和x-robots可以支配指数化行为在个人页面(或页面元素)的水平。