工程师详述Google的搜索结果排列算法

最新推荐文章于 2024-04-23 17:09:00 发布

matoku

最新推荐文章于 2024-04-23 17:09:00 发布

阅读量961

点赞数

分类专栏： SQL / MY-SQL / ORACLE 数据库探讨 AJAX / PHP / ASP / JSP / .NET / WEB2.0 技术探讨文章标签： google 算法服务器工作网络任务

AJAX / PHP / ASP / JSP / .NET / WEB2.0 技术探讨同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

SQL / MY-SQL / ORACLE 数据库探讨

1 篇文章 0 订阅

订阅专栏

工程师详述Google的搜索结果排列算法

出处：SeoClub
作者：Matt Cutts
编辑：MATOKU

　　本文作者马特-卡兹（Matt Cutts）是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级，并负责开发阻

止虚假或垃圾网站出现在Google搜索结果上的技术。

　　图书馆管理员们提出最多的问题之一是：“对于什么样的结果应该位于搜索列表的最上方，Google是如何选择的？”现在品质工程师

马特-卡兹介绍了快速入门的知识，解释了Google是如何在网上爬行和索引，以及如何评定搜索结果等级的。马特也向学校图书馆管理员

提出建议，告诉他们如何辅导学生。

　　爬行和索引

　　在你浏览包含了Google搜索结果的网页之前，要发生很多事情。首先是在万维网数以十亿计的网页上爬行和索引，这个工作是由

Googlebot完成的，它负责与全球的网络服务器连接以收集文件。爬行不是真的在网上漫游，而是访问网络服务器返回到一个特定的网页

上，接着扫描该网页建立超链接并为每一个网页编上号码。爬行可收集大量的文件，但这些文件还不能直接用于搜索。

　　如果没有索引，在你想查询如“civil war”（南北战争）等内容时，Google的服务器将不得不在你每次搜索时阅读每一份文件的内

容。因此第二个步骤是要建立一个索引，这样就需要“转换”爬行所获得的数据。为了不必在每一份文件上扫描每一个单词，就需要在数

据上做些文章，以便显示包含了特定单词的所有文件。例如，假设单词“civil”在编号为3、8、22、56、68和92的文件上出现过，而单

词“war”出现编号为2、8、15、22、68和77的文件上。

　　一旦建立了索引，就开始对文件进行等级评定并确定它们的相关性。假如某个人上Google搜索并输入“civil war”，为呈现和评价

搜索结果需要做两件事：一是查找包含了用户提问的网页；二是按照相关性排定匹配网页的位置。Google已经开发出一个有趣的技术可加

速第一步骤的过程：不是将所有索引存储在一台电脑上，而是使用数百台电脑做这种工作。由于任务被分配到很多电脑上，使得查询答案

更为迅速。

　　为更加形象地描述这个过程，可以设想下一本30页厚书的索引。如果一个人在索引中查找数页的信息，那么每一次搜索都至少需要花

几秒钟的时间；但如果你将索引的每一页分给不同的人去查找呢？三十个人分别查找索引的不同部分，要比一个人独自查找快的多。同样

，Google也是将数据分配到各台电脑上以便可以更快地查找文件。

　　如何查找包含了用户提问的网页？让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件

上，单词“war”在编号为2、8、15、22、68和77的文件上，我们可以在网页上显示文件并寻找包含两个单词的文件（从下表中可以看出

是8、22和68号文件）。

　　单词civil 3 8 22 56 68 92

　　单词war 2 8 15 22 68 77

　　两个单词都出现 8 22 68

　　包含了一个单词的文件列表被称为“文件标识列表”，查找包含两个单词的文件被称为“文件标识列表的交集”。

评定搜索结果

　　有了包含用户提问的网页后，就该按照相关性评定网页了。Google使用了很多技术，其中PageRank算法是最有名的。PageRank评定的

是两种事情：从网站到某一网页有多少个链接，提供链接的网站的排名。使用PageRank，来自CNN和纽约时报网站的链接的价值，是很多

不太有名网站的两倍。

　　除了PageRank外Google还使用了很多其他技术，例如一份文件所包含的“civil”和“war”两个单词靠的很近，就比只使用了“war

”单词的包含“Revolutionary War”（独立战争）的文件相关性要大的多。另外在题目中出现了“civil war”的网页，它的相关性就比

题目为“19th Century American Clothing”（19世纪的美国服装）要重要的多。同样如果“civil war”在网页上出现了数次，比出现

一次的网页要相关的多。

　　Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样，我们常常会选择更有名网站的

链接。但如果其他方面表明一个网页更为相关，也会选择更少链接或更低排名的网页。例如，一个网页全篇都是讲“南北战争”的内容，

会比只是略微提到“南北战争”的网页更为有用，即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值，就会选择最

高分值、最匹配的文件。

　　Google从包含了提问单词的每一份文件中提取几句话作为摘要显示，接着将排好的URLs和摘要显示在搜索结果上。正如你所知道的运

行一个搜索器需要大量的计算资源。每一次搜索需要500台以上的电脑一起工作，搜索的时间还不到半秒钟。

-------------------------------------
MATOKU点评：

GOOGLE有如此强大的功能，都在于他独特的算法，以上文章可以了解一些GOOGLE的基本算法。我还会找类似的文章提供给大家参考

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
工程师详述Google的搜索结果排列算法

工程师详述Google的搜索结果排列算法出处：SeoClub作者：Matt Cutts编辑：MATOKU 　　本文作者马特-卡兹（Matt Cutts）是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级，并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。　　图书馆管理员们提出最多的问题之一是：“对于什么样的结果应该位于搜索列表的最
复制链接

扫一扫

专栏目录

matoku CSDN认证博客专家 CSDN认证企业博客

码龄19年

12: 原创

121万+: 周排名

149万+: 总排名

3万+: 访问

: 等级

471: 积分

2: 粉丝

3: 获赞

18: 评论

12: 收藏

私信

关注

热门文章

分类专栏

3D技术的研究 2篇
AJAX / PHP / ASP / JSP / .NET / WEB2.0 技术探讨 2篇
C、C++与C#技术
FLASH技术 6篇
MATOKU的个人介绍 2篇
RIA FALSH网站探讨 2篇
SQL / MY-SQL / ORACLE 数据库探讨 1篇
VBA office应用
VB与VB.NET技术
XML的应用 2篇
~MATOKU LIFE~ MSN SPACE
我的开发案例 2篇
界面设计技术 1篇
网站推荐
音乐创作心得

最新评论

我的C语言学生成绩管理系统
ZWFGOGO: 很好的资料
我的C语言学生成绩管理系统
xueshan666 回复 xueshan666: 我知道了，要把int menu2311(k)修改为int menu2311(int k)
我的C语言学生成绩管理系统
xueshan666: 你太强了，太崇拜你了。我在Linux下编译可以通过，但在PC机上面用microsoft visual c++这个软件编译怎么会出现错误啊？E:\C程序测试\student\student.cpp(828) : error C2448: '<Unknown>' : function-style initializer appears to be a function definition E:\C程序测试\student\student.cpp(856) : error C2065: 'menu2311' : undeclared identifier E:\C程序测试\student\student.cpp(872) : warning C4508: 'main' : function should return a value; 'void' return type assumed 执行 cl.exe 时出错.
我的C语言学生成绩管理系统
momo911223: 回复 mingsunpang: 你足够的脑残！
我的C语言学生成绩管理系统
mingsunpang: [e01][e01][e01]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。