创建txt文件指令_4.5 什么是Robots.txt

ddca16dc2a2026ca56c3b9e96bef6e60.png

封面是人生必去的50个地方之:里约热内卢(巴西) 。 巴西人说:“上帝花了六天时间创造世界,第七天,他创造了里约”。里约被称作“非凡之都”:雄伟的山川、白色的沙滩、翠绿的雨林和深蓝的海水,一直吸引着各国游人。

本文翻译自SEO大神光头强(Brian Dean)SEO系列教程《第四章:技术SEO》里的第五节《Robots.txt》。

内容导读:

Robots.txt相当于一个网站的保安,它会告诉来爬取您的网站的爬虫:什么东西你可以爬取,什么东西你不能爬取。 不能爬取的页面,可以是你不想公开的页面,比如登录页面。

本文介绍了为什么要使用Robots.txt及使用方法。

一般的小型网站,可以忽略robots.txt,了解一下即可。

读完本文您可以: 知道何时使用Robots.txt,及如何使用它。

全文: 1492字

适合阅读对象:跨境电商内容营销者;SEOer;联盟营销者;对内容创作感兴趣、想通过互联网写作变现的人群。

目录

  • 什么是Robots.txt?
  • 为什么Robots.txt很重要?
  • 最佳实践
    • 创建一个Robots.txt文件
    • 让您的robots.txt文件很容易被找到
    • 检查错误
    • Robots.txt与元指令

什么是Robots.txt?

Robots.txt是一个文件,这个文件告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。大多数主流的搜索引擎(包括Google,Bing和Yahoo)都认可并接受Robots.txt的请求。

为什么Robots.txt很重要?

大多数网站不需要robots.txt文件。

这是因为Google通常可以找到网站上所有重要的页面,并为它们编制索引。

它们能够自动忽略不重要的页面和重复的页面。

也就是说,您要使用robots.txt文件的主要原因有3个。

阻止非公开页面被爬取: 有时候在网站上,有些页面不想被索引。 比如说,您可能有一个临时的、还没有完成的页面。或许是登录页面。 这些页面必须存在。但是,你不希望其他人访问这些页面。在这种情况下,您可以使用robots.txt文件,阻止爬虫或机器人爬取页面。

最大限度地提高抓取配额: 如果遇到了抓取配额问题,就无法为所有的页面都建立索引。可以通过robots.txt屏蔽不重要的页面,这样就让Google机器人将抓取配额花费在实际需要的地方。

阻止对资源建立索引: 元指令(meta directives)与Robots.txt一样,可以阻止页面被建立索引。但是,元指令不适用于多媒体资源,例如PDF和图像。此时,就需要robots.txt上场。

划重点:Robots.txt将告诉搜索引擎爬虫,不要爬取特定的页面。

您可以检查您在Google Search Console中已建立索引的页面数。

e36c62fc3bd6083fb84ed54810a74d48.png

如果数量与您想要建立索引的页面数量一致,那就无需使用Robots.txt文件。

但是,如果这个数量比预期的要多(并且你注意到有一部分URL不应该被索引),这就要为您的网站创建robots.txt文件。

最佳实践

创建一个Robots.txt文件

第一步是创建robots.txt文件。

这是一个文本文件,您实际上可以使用Windows记事本创建一个文件。

无论最终如何制作robots.txt文件,它的格式都是完全相同的:

User-agent: X Disallow: Y

用户代理(User-agent)是正在与您交谈的特定机器人。

“ Disallow(不允许)” 后面的所有部分,都是您不想让建立索引的页面或者部分页面。

这是一个例子:

User-agent: googlebot Disallow: /images

它将告诉Googlebot不要索引您网站的图片文件。

您还可以使用星号(*),和所有光顾您网站的爬虫进行对话。

看这个例子:

User-agent: * Disallow: /images

星号“ * ”,它将告诉所有蜘蛛不要爬取您的图像文件夹。

这只是使用robots.txt文件的场景之一。

这篇Google的官方指南,详细介绍了阻止/允许漫游器抓取您网站不同页面的不同规则。

文章链接:https://support.google.com/webmasters/answer/6062596?hl=en&ref_topic=6061961

05497071b1cb5fe581bb720a2a74b2ee.png

让您的robots.txt文件很容易被找到

当您创建了robots.txt之后,接下来就该使用它了。

从技术上讲,您可以将robots.txt文件放置在网站的任何主目录中。

但是,为了增加发现robots.txt文件的几率,建议将其放置在:

https://example.com/robots.txt

(请注意,您的robots.txt文件区分大小写。因此请确保在文件名中使用小写的“ r”)

检查错误

正确设置robots.txt文件非常重要。一个错误,可能会让您的整个网站取消索引。

幸运的是,有一款工具,可以检查是否设置错误。 它就是:Google机器人测试工具。

机器人测试工具:https://www.google.com/webmasters/tools/robots-testing-tool

290d0b64e82a7d788d5171726ec76401.png

它显示了您的robots.txt文件…以及发现的错误和警告:

4a8efd790cc5f745520ca693946dbd19.png

如图所示,我们阻止了Spider爬取我们的WordPress管理页面。

我们还使用robots.txt阻止WordPress自动生成的标记页被抓取(以限制重复内容)。

Robots.txt与元指令

当我们可以使用“noindex”元标签来阻止页面被索引,为何还要使用robots.txt ?

之前我们提到过:noindex标签很难禁止多媒体资源(例如视频和PDF)被建立索引。

还有,如果您有几千个页面要禁止被索引。 使用robots.txt要比在每个页面上手动添加noindex标签容易得多。

在某些极端情况下,Google机器人着陆到您使用noindex标签的网页上,会浪费抓取配额。

除了这三种情况之外,我建议使用元指令代替robots.txt。它更容易实现。而且发生灾难的可能性也较小(例如禁止整个站点被索引)。


作者:光头强(Brian Dean) 翻译:叶赛文

原贴(英文)网址:https://backlinko.com/hub/seo/robots-txt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值