对于一个需要被纳入检索目录的页面来说,Google必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。
为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。
这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。
你拥有一个线上网站也设置了网站地图或者rebots.txt,并不能保证Google就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给Google。Eventbrite依靠所有这些策略的混合,来确保页面被纳入到Google的网络索引里。
导入链接
导入链接是那些来自其他域的指向你的网站的链接。Google的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果A网站包含了一个指向B网站的链接,Google在做完A网站的句法分析后,就会跟随链接去B网站。有越多的外部网站链接了你的网站,Google就越有可能索引到你的页面。
导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果Google发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。
互联网中有超过4亿网络页面,Google需要一个帮手来找出新的网站和页面。Google索引的网络页面数量,一个估测的数值是10%。记住这件事非常重要:当用户在Google输入一个搜索词,得到的结果不是来自整个网络,而是来自Google的收集代理。返回的结果是那些Google已经找到并存储在它庞大数据库中的东西。
在改善Google对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让Google找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。
随着你网站的发展并收获更多导入链接,Google会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。