《网站流量大提速》精选5----第10章:站点收录(节选2)

 

        除了Ask.com外的所有主要的搜索引擎都允许手动提交网站,但并不都是免费的。搜索引擎提供了免费提交需要访问的 “添加网址”网页——Google是www.google.com/addurl(其他的请见表格10-2)。请记住,如果多个搜索引擎都没收录你的站 点,你需要将其分别提交到每个搜索引擎。通常需要几周后提交的网页才会收录——你可以检查日志文件来看蜘蛛程序是否来访问了。
表格10-2  提交URLs. 每个搜索引擎同意收录你的站点——有些是免费的,而其他则是付费收录。
搜索引擎    免费还是付费    URL
美国在线    免费    www.google.com/addurl
Google    免费    www.google.com/addurl
MSN搜索    免费    http://search.msn.com/docs/siteowner.aspx?t=SEARCH_WEBMASTER_REF_GettingSiteIndexed.htm
雅虎    收费    http://docs.yahoo.com/info/suggest/

        提交给本地或者特定国家的搜索引擎,与提交给全球性的搜索引擎没有什么不同。蜘蛛程序自动侦测站点使用的语言,并且会将其添加到对应版本的索引库中,我们会在12章详细讲述。

前车之鉴

         所有网页提交给搜索引擎以后,在欢呼雀跃之前,一定要多加小心。很多所谓的“专家”会建议你尽早地尽可能全面地提交站点。千万不要这样做。实际情况要复杂得多。
         提交站点应该是最后一种手段,因为其他所有的方法都无功而返——没有任何人链接到你的网站,或者站点已经被封锁了很久连蜘蛛程序都已经放弃。如果你必须要 提交网站,你只需要提交首页。站点地图会帮助蜘蛛程序找到其他的东西,因此要确认你的站点地图是全面的。人们经常不去查看蜘蛛程序访问的站点是否有问题, 而只管一次又一次地提交他们的站点。在提交之前,要先按本章提出的建议做,之后,你将可能发现根本不需要提交。
        比手工提交站点更差的是自动提交。你可能收到邮件声称只需要花19.95美元就能向成千个搜索引擎提交你的站点。这个邮件可能包含一些引人注目的统计报 告,说这个服务能保证提供上百万的访客。要彻底放弃“自动提交”。如果幸运,这些服务可能收了你大概20美金,而没有造成伤害。但是有些搜索引擎认为这些 自动提交就是作弊,并且有成熟的举措来进行封堵。最好的情况是提交被忽略,在最差的情况下,你的站点会因为过多的提交被封杀。
        使网页被收录的万全之策是付钱给搜索引擎,把这些网页放到索引库中。如我们在第3章所讨论的,付费收录不止是保证使你的网页在索引库中,并且也承诺让蜘蛛 程序对网站进行定期访问。目前只有雅虎(在主要全球性的搜索引擎中)提供付费收录,但是很多的搜索引擎在几年之前也提供,因此情况可能还会变化。收录网页 以及搜索者点击对应网页时都将收费。请记住付费收录并不保证页面会被搜索引擎显示——只有网页在搜索结果索引库中的时候。在本章的后面,我们将仔细看看付 费收录。

吸引链接

        正如我们所强调的那样,收录最好的方式是通过其他网站(已经在索引库中的站点)的链接。如果你有一个成熟的站点,可能已经吸引了很多链接,但是一个新的站点显然没有很多链接。
         最好链接是来自著名的网站,例如目录网站,而几乎任何的链接都有价值。通过在主题内建立高质量的内容,你将最终从其他站点吸引链接,但是你也可以开展一些 活动来吸引链接。第13章专门会讲吸引更多的链接到你的站点,一个重要的小节是吸引更多的链接而别管网站的新老和名气大小。

多少网页被收录?
        要收录的网页应该是你所有的网页——总之,所有公开的网页。很多网页可能是秘密的——因为被密码保护所以不能被公众访问到——这是对的,因为你不想让私密的网页被收录,并被全世界都看到。真正的问题是公开的网页没被收录。
        在本章的后面,我们将看看公开页面没被收录的原因。但是首先,我们将简单检查一下你有多少网页已经被收录了。我们将计算站点收录率(inclusion ratio)——被收录的网页的数量除以网站所有的网页数量。

测定网页总数
       虽然对熟悉小型网站的人来说这个问题非常奇怪,但通常要知道网站有多少网页并不是一件容易的事情。特别对大型的分散站点,可能需要很多心思来估算你站点的网页数量。如果你可以轻松地估计出你网站的网页数量,你就可以略过下面的部分,直接转入下一节。
        在开始统计网页的任务时,要记住你应该只统计“对公众开放”的网页。这意味着私密的(被安全保护的)网页——有密码保护的网页——不能计算在内,因为你不 愿意让这些网页在搜索引擎上向公众开放。因此,如果你在网页上给顾客显示发票或者定单状态,给这些网页加密码保护是非常必要的,这样他们只能看到自己的信 息。不要将这些网页计算在内,因为你不需要将他们加入到搜索索引库里。
        为了计算收录率,如果你精确地知道网页的总数就太棒了,但是并不要求特别精确。如果你不知道精确的数字,这里有几种方法来做合理的估计:
1 询问网站管理员。你的网站管理员可能也不知道,但是他可能以前被问到过这个问题,并且至少考虑过答案。通过了解网站管理员猜测总网页量的思路,你可以评估这个总量的可信度。
2 检查公司的搜索引擎。如果你自己有搜索引擎,允许只访问你的站点,检查在你公司自己的搜索索引库中有多少公司的网页。(要小心。如果你的公司搜索引擎索引是通过蜘蛛程序更新的,你的公司搜索索引将会丢失很多Google和其他互联网搜索引擎丢失的相同页面。)
3 通过内容来源累加。很多网页是文件的网页——它们在你的内容管理系统里或者电子商务系统里是有一个文件的。虽然你或许不能使用这种方法精确地计算所有的网页,但是这会帮助你做比较精确的估计,而不是在黑暗中摸索。
4 使用特别的蜘蛛程序:你能够在你的网站上释放自己的蜘蛛程序。特别的蜘蛛程序,例如免费的Xenu (http://home.snafu.de/tilman/xenulink.html)和98美元的OptiSpider (www.optitext.com/optispider),是专门用来在你站点上找网页的,而你可能没有注意到它们可以得到的网页计数结果。不幸的 是,和一个公司搜索引擎一样,阻挡互联网搜索蜘蛛的障碍同样也会阻挡这些特别的蜘蛛程序。好消息是,特别的蜘蛛程序可以告诉你它们是在哪里被阻止的,因此 你可以采取矫正的行动,我们在本章后面会介绍。
5 检查搜索引擎。这看起来很奇怪,但是每个搜索引擎都存储了不同数量你站点的网页。这可能是最难估计的,但是这也比完全靠猜要好。在我们的下一部分,我们介绍怎样耐心使搜索引擎告诉你,它们储存了多少你的页面。
       一旦估计出网站有多少网页,你就可以着手检查在主要搜索引擎中被收录了多少网页。

检查网页被收录数量
       你想要知道站点有多少网页被收录,搜索引擎理解你的这个需求并为此提供了便利。搜索引擎通过一个特别的搜索运算指令来向你显示对特定站点的网页收录量。
要检查当前你有多少网页被Google收录,输入搜索:“site:你的域名.com”来看从你的域名有多少网页。例如,搜索请求“site:coach.com”显示出从这个手包制造商的站点有多少网页被收录,如图表10-3。
        不光是Google——美国在线,MSN和雅虎都提供了特别的“site”运算符来帮助你看有多少网页被收录了。Ask.com做起来有些困难,迫使你使 用高级搜索界面。你必须选择在每个网页上的词(例如公司名字)并在搜索前在“Domain or Site(域名或站点)”的空处填写“你的域名.com”,才能得到Ask.com的网页计数。
        除了手工输入这些特别的指令,使用很多工具也可以得到报告。搜索顾问公司MarketLeap (www.marketleap.com)提供如图表10-4所示的搜索引擎饱和度报告工具。
        你可以从报告看到对Intel公开的网站页面就有181,000个网页被Google收录。(有些网页可能是重复的,但是大多数是独一无二的。) Intel在雅虎上也有很好的表现,大约是72,000个网页被收录。虽然雅虎 和Google都索引了很多Intel的网页,你可以看到这两个搜索引擎大约有100,000个网页的差距。不同的蜘蛛程序爬过Intel站点的方式是不 同的,结果是不同的网页被收录。

计算收录率
       你可能已经猜到怎样计算收录率(站点的网页被搜索引擎收录的百分率),简单地用搜索引擎收录你站点的网页数除以你估计出的站点的网页数。例如,如果Ask .com报告说你有10,000个网页被收录,你的内容管理系统有15,000个文件,那么你在Ask Jeeves的包含率是10,000 ÷ 15,000 = 0.67 或者 67%。
        因此什么是合适的评价标准呢?对你来说最低限度是50%。50%是最低要求,但是如果努力,可以争取到近100%的网页被收录。
       尽管很少见,但你可能发现一个网站的包含率超过100%。不是搜索引擎派送了奖励的网页,而是你的站点有很严重的问题。搜索可能重复收录了网页,可能你有 很多动态的网址(会在本章后面解释)。更严重的是,你的站点私密的内容(信息应该被保护,不能给公众看)可能由于一个安全漏洞被搜索收录了。另外,你可能 低估了站点的全部网页数量,这可能是出现高包含率最容易接受的理由。
       如果几乎全部的网页都被所有搜索引擎收录,高兴吧,不用再看本章的其他部分了。可大多数的公司不是这样的。大多数的网站收录率远远低于100%——有些甚至在5%以下。下一步,我们将看看怎样提高你的收录率,甚至达到100%。

怎样能使更多的网页被收录?
       当你确认了站点被收录,并且已经计算出网页收录总数,你一定渴望得到更多。能收录的网页数量不会超过网站网页数量总数。很多站点有上百万的网页被收录,而有些突出的站点只有首页被收录。
       为了提高站点的包含率,你可以采取如下步骤:
1 消除蜘蛛陷阱。你的网站可能实际上阻止蜘蛛程序收录网页。你将学习什么是陷阱,并且怎样使蜘蛛程序跳过每个陷阱。
2 减少被忽视的内容。蜘蛛程序有一定的存在规则,如果你的内容违反这些规则,你就会有损失。找出这些规则是什么,和减少这些使蜘蛛程序忽视你网站内容的方法。
 3 建立蜘蛛程序的通路。你可以建立站点地图和其他导航信息,通过简化网页的链接使蜘蛛程序收录更多的你站点的网页。
4 使用付费收录。通过付费是可以保证收录的一种方法,这对允许收费收录的搜索引擎有效。Google还提供了免费收录服务。
       对有人抱怨蜘蛛程序没有收录某些内容。虽然我们非常认同蜘蛛程序可以提高爬行技术,但是蜘蛛程序远离一些内容肯定是有原因的。你要么袖手旁观抱怨,或者用取悦它们的方法来使网页被收录。你可以猜想哪条路更成功。
        如果你的站点正在被低的收录率折磨着,你可以开展很多行动,但是消除蜘蛛程序的陷阱是最有效的初步方法。

消除蜘蛛陷阱
        我们以前说过,蜘蛛程序不可能收录所有的网页。但我们没有说明蜘蛛程序有什么样的问题。我们现在就说说它。
        蜘蛛程序再精巧,也难以逾越一系列所谓的蜘蛛程序陷阱(spider traps)问题。蜘蛛程序陷阱是阻止蜘蛛程序爬行网站的障碍物,通常源于那些显示网页的技术方法,这些手段能很好地配合浏览器,但对蜘蛛程序就构成了阻 碍。不在网站使用这些技术,可以使蜘蛛程序收录更多的网页。
        不幸的是,很多蜘蛛程序陷阱是很多先进技术方法的产物,而且设计富有很高创意,开发成本贵得吓人。毕竟都花了那么多的钱,没有人想听你说站点已经因此被搜索引擎排除在外了。尽管这样,这是你必须传达的坏消息。
        幸运地是,蜘蛛程序在这些年来成长得更加完善了。几年以前妨碍蜘蛛程序的设计现在已经不成问题了。但是你需要使用这些领先的技术跟上蜘蛛程序的成长。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值