封面是人生必去的50个地方之:里约热内卢(巴西) 。 巴西人说:“上帝花了六天时间创造世界,第七天,他创造了里约”。里约被称作“非凡之都”:雄伟的山川、白色的沙滩、翠绿的雨林和深蓝的海水,一直吸引着各国游人。
本文翻译自SEO大神光头强(Brian Dean)SEO系列教程《第四章:技术SEO》里的第五节《Robots.txt》。
内容导读:
Robots.txt相当于一个网站的保安,它会告诉来爬取您的网站的爬虫:什么东西你可以爬取,什么东西你不能爬取。 不能爬取的页面,可以是你不想公开的页面,比如登录页面。
本文介绍了为什么要使用Robots.txt及使用方法。
一般的小型网站,可以忽略robots.txt,了解一下即可。
读完本文您可以: 知道何时使用Robots.txt,及如何使用它。
全文: 1492字
适合阅读对象:跨境电商内容营销者;SEOer;联盟营销者;对内容创作感兴趣、想通过互联网写作变现的人群。
目录
- 什么是Robots.txt?
- 为什么Robots.txt很重要?
- 最佳实践
- 创建一个Robots.txt文件
- 让您的robots.txt文件很容易被找到
- 检查错误
- Robots.txt与元指令
什么是Robots.txt?
Robots.txt是一个文件,这个文件告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。大多数主流的搜索引擎(包括Google,Bing和Yahoo)都认可并接受Robots.txt的请求。
为什么Robots.txt很重要?
大多数网站不需要robots.txt文件。
这是因为Google通常可以找到网站上所有重要的页面,并为它们编制索引。
它们能够自动忽略不重要的页面和重复的页面。
也就是说,您要使用robots.txt文件的主要原因有3个。
阻止非公开页面被爬取: 有时候在网站上,有些页面不想被索引。 比如说,您可能有一个临时的、还没有完成的页面。或许是登录页面。 这些页面必须存在。但是,你不希望其他人访问这些页面。在这种情况下,您可以使用robots.txt文件,阻止爬虫或机器人爬取页面。
最大限度地提高抓取配额: 如果遇到了抓取配额问题,就无法为所有的页面都建立索引。可以通过robots.txt屏蔽不重要的页面,这样就让Google机器人将抓取配额花费在实际需要的地方。
阻止对资源建立索引: 元指令(meta directives)与Robots.txt一样,可以阻止页面被建立索引。但是,元指令不适用于多媒体资源,例如PDF和图像。此时,就需要robots.txt上场。
划重点:Robots.txt将告诉搜索引擎爬虫,不要爬取特定的页面。
您可以检查您在Google Search Console中已建立索引的页面数。
如果数量与您想要建立索引的页面数量一致,那就无需使用Robots.txt文件。
但是,如果这个数量比预期的要多(并且你注意到有一部分URL不应该被索引),这就要为您的网站创建robots.txt文件。
最佳实践
创建一个Robots.txt文件
第一步是创建robots.txt文件。
这是一个文本文件,您实际上可以使用Windows记事本创建一个文件。
无论最终如何制作robots.txt文件,它的格式都是完全相同的:
User-agent: X Disallow: Y
用户代理(User-agent)是正在与您交谈的特定机器人。
“ Disallow(不允许)” 后面的所有部分,都是您不想让建立索引的页面或者部分页面。
这是一个例子:
User-agent: googlebot Disallow: /images
它将告诉Googlebot不要索引您网站的图片文件。
您还可以使用星号(*),和所有光顾您网站的爬虫进行对话。
看这个例子:
User-agent: * Disallow: /images
星号“ * ”,它将告诉所有蜘蛛不要爬取您的图像文件夹。
这只是使用robots.txt文件的场景之一。
这篇Google的官方指南,详细介绍了阻止/允许漫游器抓取您网站不同页面的不同规则。
文章链接:https://support.google.com/webmasters/answer/6062596?hl=en&ref_topic=6061961
让您的robots.txt文件很容易被找到
当您创建了robots.txt之后,接下来就该使用它了。
从技术上讲,您可以将robots.txt文件放置在网站的任何主目录中。
但是,为了增加发现robots.txt文件的几率,建议将其放置在:
https://example.com/robots.txt
(请注意,您的robots.txt文件区分大小写。因此请确保在文件名中使用小写的“ r”)
检查错误
正确设置robots.txt文件非常重要。一个错误,可能会让您的整个网站取消索引。
幸运的是,有一款工具,可以检查是否设置错误。 它就是:Google机器人测试工具。
机器人测试工具:https://www.google.com/webmasters/tools/robots-testing-tool
它显示了您的robots.txt文件…以及发现的错误和警告:
如图所示,我们阻止了Spider爬取我们的WordPress管理页面。
我们还使用robots.txt阻止WordPress自动生成的标记页被抓取(以限制重复内容)。
Robots.txt与元指令
当我们可以使用“noindex”元标签来阻止页面被索引,为何还要使用robots.txt ?
之前我们提到过:noindex标签很难禁止多媒体资源(例如视频和PDF)被建立索引。
还有,如果您有几千个页面要禁止被索引。 使用robots.txt要比在每个页面上手动添加noindex标签容易得多。
在某些极端情况下,Google机器人着陆到您使用noindex标签的网页上,会浪费抓取配额。
除了这三种情况之外,我建议使用元指令代替robots.txt。它更容易实现。而且发生灾难的可能性也较小(例如禁止整个站点被索引)。
作者:光头强(Brian Dean) 翻译:叶赛文
原贴(英文)网址:https://backlinko.com/hub/seo/robots-txt