Google搜索的工作原理分析【图解】

 

Google搜索的工作原理分析【图解】

 

搜索引擎之于Google,就像Windows之于微软。如果将互联网比作一个巨大的生态系统的话,那么搜索引擎正是处于整个食物链的最上层,互联网搜索甚至已经提升到了搜索文化的高度,在少量信息的Internet上,搜索引擎是网民的罗盘,而Google是世界上迄今为止最好的捕鼠器。

PPCBlog为我们呈现了一幅Jess BachmanWallStats.com工作)精心描述的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在不到1秒的响应时间内所进行的处理。这张图片很好地描述了Google搜索背后的工作原理,解释了网页从被Google的网络蜘蛛爬取、收录、索引,最后再到用户进行一次Google搜索并产生搜索结果的过程。

如果看不到图片请点击:http://yi-it.com/blog/images/how-google-works-chinese-detail.jpg

 

 

Google搜索是如何工作的【图解】


一、Google官方对其搜索技术的叙述

我们的搜索技术的后台软件会在服务器端触发一系列执行时间不到1秒的并行计算,Google问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其中包括我们拥有专利的PageRank页面等级加权算法)用来检查万维网的链接结构(佩奇和布林最初的十法界把万维网的链接结构用略论的有向无环图来建模)并决定网页的重要程度,我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文中的引用指数一样,重要的论文总是会被很多其他论文引用。

然后,我们再根据搜索条件进行超文本匹配分析(对蜘蛛抓取的页面内容进行关键词倒排索引检索),确定跟搜索请求最相关的网页。综合最重要的网页跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。

 

二、Google的数据中心

Google的数据中心高度机密,我们能了解到的不多:

1)在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。

2)每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。

3Google数据中心是世界上最高效的设施之一,而且也非常环保,几乎没有碳排放。

4)数据中心使用50100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。

5Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。

 

三、Google蜘蛛简介

首先先谈下Google蜘蛛起源:当Google搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快,其实最主要的是后期Google将服务器延伸到了很多城市,所以现在你能发现Google的运算速率是超前的快。

服务器将采集的信息分类、整理到庞大的数据库,其中有个数据库都是用来存网站域名的。域名只要被搜索引擎索引到,将自动存入此数据库,此数据库是1号蜘蛛的核心。其内部分为10PR各等级的小数据库,虽说小数据库,但也是大的可怕!10个等级的数据库其周期也不同,基本上以一个PR=4的网站来讲 1号蜘蛛爬行的概率也在7天一次。所以基本你也会发现收录有大的幅度也是在7天内的某一天。细心的站长会发现其实有时候7天还是蛮准的,但只针对PR=4。越是PR高其周期越是短,越是PR

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值