搜索引擎的三个主要功能:
- 爬取:在互联网上搜索内容,查找找到的每个URL的代码/内容。
- 索引:存储和组织爬取过程中发现的内容。一旦页面在索引中,它就处于运行状态,作为相关查询的结果显示出来。
- 排名:提供最能回答搜索者查询的内容片段,这意味着结果按最相关到最不相关的顺序排列。
爬取:
爬取是搜索引擎派出机器人(称为爬虫或蜘蛛)来查找新的和更新的内容的发现过程。内容可以是网页、图像、视频、PDF等——但不管格式如何,内容都是通过链接发现的。
Googlebot首先获取一些网页,然后根据这些网页上的链接查找新的URL。通过沿着这条链接路径跳跃,爬虫程序能够找到新内容并将其添加到名为Caffeine的索引中,Caffeine是一个由发现的URL组成的庞大数据库,当搜索者在搜索该URL上的内容与之匹配的信息时,该索引将被检索。
索引
搜索引擎处理并存储他们在索引中找到的信息,索引是一个庞大的数据库,包含他们发现的所有内容,并认为这些内容足以为搜索者提供服务。
排名
当有人执行搜索时,搜索引擎会在索引中搜索高度相关的内容,然后显示这些内容,用来解决搜索者的查询。这种按相关性排序的搜索结果称为排名。一般来说,您可以假设网站排名越高,搜索引擎认为该网站与查询的相关性越高。
谷歌拥有最大的市场份额,但需要优化Bing、Yahoo吗?尽管有30多个主要的网络搜索引擎,只需要关注谷歌。因为谷歌是绝大多数人搜索的地方。如果将谷歌图片、谷歌地图和YouTube包括在内,超过90%的搜索都是在谷歌上进行的——这几乎是Bing和Yahoo加起来的20倍。