那里有很多搜索引擎,但是大多数时候,网站所有者都很关心在全能的Google上为其网站建立索引。 一种在搜索引擎上表现更好的方法是使用元机器人标签 。
meta
机器人标签是Google,Yahoo和Bing等搜索引擎之间的共识元标签。 meta标签的使用是为了使Web开发人员可以针对搜索引擎爬网程序对网页进行可访问性控制。 例如,诸如noindex
东西将阻止所有来自搜索引擎的机器人将您的网页置于其索引中。
Google自己的机器人称为Googlebot。 在这篇文章中,我们将看到我们如何通过元标记专门处理Googlebot。
寻址Googlebot
要寻址Googlebot,请将元name
指定为googlebot
而不是robots
。 此示例将阻止Googlebot将您的网页置于索引中,但仍允许Bing和Yahoo的漫游器抓取该页面。 因此,您的网页可能仍会出现在Bing和Yahoo搜索结果中。
<meta name="googlebot" content="noindex">
Google有许多特殊的漫游器,可以抓取不同种类的内容,例如图像,新闻,视频,广告和移动。 Google允许您分别阻止这些机器人。 例如,如果您不想让您的网站出现在Google移动搜索结果中,则可以通过以下方式指定meta robot标签:
<meta name="googlebot-mobile" content="noindex">
您可以在Google的网站抓取工具页面中找到Google漫游器类型的完整列表。
防止图像索引
如果未经您的事先许可而发现他人使用了受版权保护的图像,那真是令人不快。 如果您希望最大程度地减少这种情况的发生,可以阻止Google将图片放在其索引上。
指定值为noimageindex
的meta robot标记。 这将防止机器人将页面中的所有图像编入索引,并且您的图像不会出现在人们通常在其中搜索图像的Google图像搜索结果中。
<meta name="googlebot" content="noimageindex">
或者,您可以将元名称设置为googlebot-image
以专门阻止Google的机器人抓取您的网站中的图像。
<meta name="googlebot-image" content="noimageindex">
防止翻译
Google Chrome浏览器在Google翻译的帮助下,将网站翻译成访客喜欢的语言或当地语言。 尽管Google翻译翻译变得越来越好,但对于某些语言而言,还远远不够完美。 翻译输出有时可能确实很古怪。
如果您不希望Google翻译网页,请像这样将googlebot元数据设置为notranslate
。
<meta name="googlebot" content="notranslate">
如果要防止翻译页面的特定部分,可以在包裹内容的元素内添加notranslate
类:
<div class="notranslate">
<!-- the content -->
</div>
Google将完全忽略此<div>
。
在指定的时间后防止编制索引
您还可以阻止Google在特定时间段后为您的网页编制索引。 这对于仅在时间范围内相关的网页(例如事件注册页面)特别有用。
在这种情况下,您可能要告诉机器人在事件结束后不要抓取该页面并将其编入索引,从而防止该机器人显示在Google的搜索结果中。
为此,请指定meta标签,其值为unavailable_after
然后再加上时间信息。 时间格式应符合RFC-850格式,例如:UTC 26-Sep-14 10:00:00 UTC
<meta name="googlebot" content="unavailable_after: Monday, 29-Sep-14 10:00:00 UTC">
给出上述示例后,Google漫游器将不会在14年9月29日之后抓取该页面。 该页面最终将从索引中消失,但是您仍然可以保留该页面以在您的网站中进行归档。
翻译自: https://www.hongkiat.com/blog/google-meta-robot-features/