Google - 数学之美系列 - 我的小结

最新推荐文章于 2024-07-26 09:40:31 发布

岑永洪

最新推荐文章于 2024-07-26 09:40:31 发布

阅读量1.8k

点赞数

文章标签： google 搜索引擎工作数据库互联网文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nickcen/article/details/1927103

版权

今天从头到尾的把吴军研究员写的数学之美系列又阅读了一遍。打算从程序员的角度，把与搜索引擎相关的内容整理一下。

要做一个搜索引擎，首先就得把尽量多的网页下载回来。而为了能获得尽量多的网页，就需要对互联网进行一个遍历？这里面用到的就是图论的内容，遍历可以分为两种深度优先或广度优先。当然在遍历过程中需要标记哪个页面已经访问过，而哪些尚未被访问，这里可以使用哈希表进行标记，但由于网址的长度比较大，所以，为了节省空间，我们可以为每个网址产生一个唯一的信息指纹。

当我们获取了网页以后，要进行的第二个工作就是对他进行索引，而为了索引，则必须首先对其进行分词，也就是把句子转化为词语，这里需要用到统计语言模型。分好词以后，我们就可以真正的进行索引操作，这里使用的就是布尔代数，对于每一个关键词，我们都有一个二进制数，该二进制数的每一位就对应到一篇文章，如果该文章包含了该关键词，那么该文章对应的位就标记为1，否则标记为0。

在索引时，我们还需要计算每个页面的PageRank，从而决定在查询时，应该把那些页面放到前面。

完成了索引的工作以后，我们的数据库就基本建成了，接下来的工作就是等待用户进行查询。

由于词语一般都具有多义性，所以，在查询时，我们首先需要判断用户到底是想要词的哪个意思。如果用户的查询词语不止一个，那么我们就可以利用互信息，来判断用户的查询意图，提高查询的准确性。通过之前建立的索引，我们可以很容易的找到包含这些关键词的页面都有哪些。

在得到这些页面以后，返回用户以前，我们还需要对结果进行排序。这里我们一方面需要参考页面的PageRank值，另一方面还需要考虑关键词的TF/IDF(词频-反向文档频率)值。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Google - 数学之美系列 - 我的小结

今天从头到尾的把吴军研究员写的数学之美系列又阅读了一遍。打算从程序员的角度，把与搜索引擎相关的内容整理一下。要做一个搜索引擎，首先就得把尽量多的网页下载回来。而为了能获得尽量多的网页，就需要对互联网进行一个遍历？这里面用到的就是图论的内容，遍历可以分为两种深度优先或广度优先。当然在遍历过程中需要标记哪个页面已经访问过，而哪些尚未被访问，这里可以使用哈希表进行标记，但由于网址的长度比较大，所以，
复制链接

扫一扫

岑永洪 CSDN认证博客专家 CSDN认证企业博客

码龄22年

90: 原创

25万+: 周排名

174万+: 总排名

30万+: 访问

: 等级

3940: 积分

25: 粉丝

6: 获赞

82: 评论

33: 收藏

私信

关注

热门文章

分类专栏

最新评论

通过libnotify发送桌面通知
CSDN-Ada助手: 非常感谢您分享关于通过libnotify发送桌面通知的技术文章。我觉得您可以继续深入探讨如何使用不同操作系统下的通知系统，比如Windows、macOS等等。这样的技术文章对其他用户的桌面通知需求会非常有帮助。下一篇您可以继续就跨平台的桌面通知系统继续写，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
WSDL在Web Service中的意义和作用
weixin_43500609: 这个字体能换一下不看这有些难受
设计模式－行为模式
Kevin's life: 感谢分享
Java平台组件开发
c306081148: 有没有原文地址啊？
Java XML编程
Sunny Mornings: 写的比较详细。但不能忍受文章的格式啊。。。。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。