创建txt文件指令_4.5 什么是Robots.txt

最新推荐文章于 2024-07-30 08:20:13 发布

weixin_39808143

最新推荐文章于 2024-07-30 08:20:13 发布

阅读量143

点赞数

文章标签：创建txt文件指令

封面是人生必去的50个地方之：里约热内卢（巴西）。巴西人说：“上帝花了六天时间创造世界，第七天，他创造了里约”。里约被称作“非凡之都”：雄伟的山川、白色的沙滩、翠绿的雨林和深蓝的海水，一直吸引着各国游人。

本文翻译自SEO大神光头强(Brian Dean)SEO系列教程《第四章：技术SEO》里的第五节《Robots.txt》。

内容导读：

Robots.txt相当于一个网站的保安，它会告诉来爬取您的网站的爬虫：什么东西你可以爬取，什么东西你不能爬取。不能爬取的页面，可以是你不想公开的页面，比如登录页面。

本文介绍了为什么要使用Robots.txt及使用方法。

一般的小型网站，可以忽略robots.txt，了解一下即可。

读完本文您可以： 知道何时使用Robots.txt，及如何使用它。

全文： 1492字

适合阅读对象：跨境电商内容营销者；SEOer；联盟营销者；对内容创作感兴趣、想通过互联网写作变现的人群。

目录

什么是Robots.txt？
为什么Robots.txt很重要？
最佳实践
- 创建一个Robots.txt文件
- 让您的robots.txt文件很容易被找到
- 检查错误
- Robots.txt与元指令

什么是Robots.txt？

Robots.txt是一个文件，这个文件告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。大多数主流的搜索引擎（包括Google，Bing和Yahoo）都认可并接受Robots.txt的请求。

为什么Robots.txt很重要？

大多数网站不需要robots.txt文件。

这是因为Google通常可以找到网站上所有重要的页面，并为它们编制索引。

它们能够自动忽略不重要的页面和重复的页面。

也就是说，您要使用robots.txt文件的主要原因有3个。

阻止非公开页面被爬取： 有时候在网站上，有些页面不想被索引。比如说，您可能有一个临时的、还没有完成的页面。或许是登录页面。这些页面必须存在。但是，你不希望其他人访问这些页面。在这种情况下，您可以使用robots.txt文件，阻止爬虫或机器人爬取页面。

最大限度地提高抓取配额： 如果遇到了抓取配额问题，就无法为所有的页面都建立索引。可以通过robots.txt屏蔽不重要的页面，这样就让Google机器人将抓取配额花费在实际需要的地方。

阻止对资源建立索引： 元指令（meta directives）与Robots.txt一样，可以阻止页面被建立索引。但是，元指令不适用于多媒体资源，例如PDF和图像。此时，就需要robots.txt上场。

划重点：Robots.txt将告诉搜索引擎爬虫，不要爬取特定的页面。

您可以检查您在Google Search Console中已建立索引的页面数。

如果数量与您想要建立索引的页面数量一致，那就无需使用Robots.txt文件。

但是，如果这个数量比预期的要多（并且你注意到有一部分URL不应该被索引），这就要为您的网站创建robots.txt文件。

最佳实践

创建一个Robots.txt文件

第一步是创建robots.txt文件。

这是一个文本文件，您实际上可以使用Windows记事本创建一个文件。

无论最终如何制作robots.txt文件，它的格式都是完全相同的：

User-agent: X Disallow: Y

用户代理（User-agent）是正在与您交谈的特定机器人。

“ Disallow(不允许)” 后面的所有部分，都是您不想让建立索引的页面或者部分页面。

这是一个例子：

User-agent: googlebot Disallow: /images

它将告诉Googlebot不要索引您网站的图片文件。

您还可以使用星号（*），和所有光顾您网站的爬虫进行对话。

看这个例子：

User-agent: * Disallow: /images

星号“ * ”，它将告诉所有蜘蛛不要爬取您的图像文件夹。

这只是使用robots.txt文件的场景之一。

这篇Google的官方指南，详细介绍了阻止/允许漫游器抓取您网站不同页面的不同规则。

文章链接：https://support.google.com/webmasters/answer/6062596?hl=en&ref_topic=6061961

让您的robots.txt文件很容易被找到

当您创建了robots.txt之后，接下来就该使用它了。

从技术上讲，您可以将robots.txt文件放置在网站的任何主目录中。

但是，为了增加发现robots.txt文件的几率，建议将其放置在：

https://example.com/robots.txt

（请注意，您的robots.txt文件区分大小写。因此请确保在文件名中使用小写的“ r”）

检查错误

正确设置robots.txt文件非常重要。一个错误，可能会让您的整个网站取消索引。

幸运的是，有一款工具，可以检查是否设置错误。它就是：Google机器人测试工具。

机器人测试工具：https://www.google.com/webmasters/tools/robots-testing-tool

它显示了您的robots.txt文件…以及发现的错误和警告：

如图所示，我们阻止了Spider爬取我们的WordPress管理页面。

我们还使用robots.txt阻止WordPress自动生成的标记页被抓取（以限制重复内容）。

Robots.txt与元指令

当我们可以使用“noindex”元标签来阻止页面被索引，为何还要使用robots.txt ？

之前我们提到过：noindex标签很难禁止多媒体资源（例如视频和PDF）被建立索引。

还有，如果您有几千个页面要禁止被索引。使用robots.txt要比在每个页面上手动添加noindex标签容易得多。

在某些极端情况下，Google机器人着陆到您使用noindex标签的网页上，会浪费抓取配额。

除了这三种情况之外，我建议使用元指令代替robots.txt。它更容易实现。而且发生灾难的可能性也较小（例如禁止整个站点被索引）。

作者：光头强(Brian Dean) 翻译：叶赛文

原贴（英文）网址：https://backlinko.com/hub/seo/robots-txt

weixin_39808143

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
创建txt文件指令_4.5 什么是Robots.txt

封面是人生必去的50个地方之：里约热内卢（巴西）。巴西人说：“上帝花了六天时间创造世界，第七天，他创造了里约”。里约被称作“非凡之都”：雄伟的山川、白色的沙滩、翠绿的雨林和深蓝的海水，一直吸引着各国游人。本文翻译自SEO大神光头强(Brian Dean)SEO系列教程《第四章：技术SEO》里的第五节《Robots.txt》。内容导读：Robots.txt相当于一个网站的保安，它会告诉来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。