控制搜索引擎访问和索引你的网站

转载 2007年10月08日 09:41:00
我 经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者 能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。

文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

文件 robots.txt 有什么用?

互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是“网海一粟”。 (对 Douglas Adams 致以诚挚的道歉)

象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。

为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。

然 而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通 过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。

精细控制

除 了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子,它是一个 robots.txt 文件。

User-Agent: Googlebot
Disallow: /logs/

User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。

禁止访问单个文件

如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:

<html>
<head>
<meta name="googlebot" content="noindex">
...

这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

了解更多

你可以在 http://www.robotstxt.org/谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:

如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件?

我们也在我们的站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:

使用 robots.txt 文件
Googlebot 汇总

这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html

下次……

即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。 
 

在ASP.NET中如何实现和利用URL重写

 在ASP.NET中如何实现和利用URL重写  灵活的URL重写可以让你的网站增加可用性和专业性。在帮助网站更好的被搜索引擎索引收录方面,这也是一个重要的因素。在本篇文章中,我将带你了解如何在 ASP...
  • cubit
  • cubit
  • 2008年01月08日 14:38
  • 1045

控制搜索引擎访问和索引你的网站

控制搜索引擎访问和索引你的网站 时间:2010-04-02 00:16 点击:78次 作者:admin 来源:未知 我经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是...
  • panjintong
  • panjintong
  • 2010年06月08日 21:41
  • 112

控制搜索引擎访问和索引你的网站

2007年10月08日 06:06:00 发表者 Dan Crow, 产品经理 转载自谷歌中文网站管理员博客 原文:Controlling how search engines access ...
  • softart
  • softart
  • 2007年10月27日 08:55
  • 173

搜索引擎如何实现对页面的索引与排名

关于搜索引擎对页面索引和排名之间的关系。我们应该知道我们在做网站的时候,很多时候需要分一些板块,这点是根据搜索引擎的搜索原理来进行的。   关于主题索引词的板块集合的概念?    搜索针...
  • jingdianyulu
  • jingdianyulu
  • 2014年08月15日 01:08
  • 420

浅谈垂直搜索引擎技术

在搜索引擎成为web2.0发展的一道风景线的今天,为信息查找提供更有时效性、针对性、准确性的垂直搜索引擎越来越受到网络用户的青睐。本论文以垂直搜索为主题,介绍搜索引擎的发展及其现状,对比通用搜索引擎和...
  • caxin100
  • caxin100
  • 2016年05月13日 11:34
  • 2044

搜索引擎的体系架构

参考文献:http://www.stlchina.org/twiki/bin/view.pl/Main/SEStructSys搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索...
  • wqf363
  • wqf363
  • 2006年12月19日 12:20
  • 2345

搜索引擎索引之如何更新索引

本文节选自《这就是搜索引擎:核心技术详解》第三章      动态索引通过在内存中维护临时索引,可以实现对动态文档和实时搜索的支持。但是服务器内存总是有限的,随着新加入系统的文档越来越多,临时...
  • hu948162999
  • hu948162999
  • 2014年10月16日 11:43
  • 893

搜索引擎的难点

1.  存储优化: 搜索的基本功能就是:在很大的数据集合里面快速的查找出想要的数据,只能通过把数据做成索引;通过搜索引擎来快速查找。 索引要想查的快,最基本的就是把索引数据放到内存中,但内存是宝贵...
  • caoshuming_500
  • caoshuming_500
  • 2016年01月26日 18:25
  • 773

改变世界的9大算法--搜索引擎索引

搜索有两个主要阶段:匹配和排名。搜索引擎将二者组合成一个流程以实现一致性。但是这两个在概念上是独立的,我们假设在排名之前已经完成了匹配。 并且一个搜索引擎的生死由其排名的质量决定。 还是老规则,问题三...
  • L_rollback
  • L_rollback
  • 2016年10月09日 09:45
  • 841

搜索引擎索引之如何建立索引

3.4建立索引       正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 ...
  • samjustin1
  • samjustin1
  • 2016年09月29日 20:11
  • 1213
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:控制搜索引擎访问和索引你的网站
举报原因:
原因补充:

(最多只允许输入30个字)