搜索引擎核心技术入门

最新推荐文章于 2024-08-30 20:48:59 发布

孙宏亮

最新推荐文章于 2024-08-30 20:48:59 发布

阅读量1.8k

点赞数

分类专栏：搜索引擎文章标签：搜索引擎检索索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shlazww/article/details/8522723

版权

本文概述了搜索引擎的核心技术，包括网络爬虫的高效策略，倒排索引的构建，以及布尔、向量空间和概率检索模型。此外，还提及了链接分析中的PageRank算法和网页反作弊技术的重要性。

摘要由CSDN通过智能技术生成

今天刚把《这就是搜索引擎.技术核心详解》一书看完，趁着还有点印象，做一个简单的综述。

先从一个宏观的角度来认识一下搜索引擎的架构是怎样的。

简单来讲，可以将搜索引擎的工作流程分为两部分，一个用户主导的前端级，另外一个是服务器主导的后台级。前端级主要负责发送查询需求并分析，接受搜索结果并排序的功能的这两个功能。当然这只是广义的用户级，因为这只是针对于大型的存储与计算平台来讲的，在图中体现为index files。后台则是主要囊括信息的搜集以及信息的处理，当然在实现这两个简单的功能的时候，涉及众多的技术，比如网络爬虫，网页去重，反作弊，链接分析等

网络爬虫

网络爬虫很好理解，就像它的名称一样，作为一个程序，它一直在按着某种规则在互联网中扒取网页，而最终扒取下来的网页信息就会使用到建立索引中。

当然作为一个搜索引擎的网络引擎，他的网络爬虫性能必须非常优秀。如果网络爬虫扒取的网页质量很差，速度很慢的话，将会直接影响建立起来索引的质量，最终导致用户体现差等悲观结局。而网络爬虫为体现其高性能，必须在扒取策略上设计得很高效，为此爬虫在遍历网页的时候，有宽度优先遍历策略，非完全PageRank策略，OPIC策略，大站优先策略等。另外由于爬虫扒取的网页是静态的，但是实际上网页是在动态更新的，为达到动态更新的目的，搜索引擎需

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

孙宏亮 CSDN认证博客专家 CSDN认证企业博客

码龄15年

47: 原创

12万+: 周排名

63万+: 总排名

27万+: 访问

: 等级

2840: 积分

241: 粉丝

60: 获赞

58: 评论

97: 收藏

私信

关注

热门文章

分类专栏

最新评论

深入理解 Docker 镜像 json 文件
奇妙之二进制: 前排支持一下,可以的话来我博客看看吧
Docker源码分析（一）：Docker架构
qq_35848447: 运行时要讲和main.go 同一级的所有go文件一起build 。可以使用（go build . ）然后在运行
深刻理解Docker镜像大小
风云不语: 写的好，RUN rm /compressed.tar后面后要ADD,就多余了100M的大小，这个问题可以解决么？
Docker源码分析（一）：Docker架构
logens: 楼主我想在ubuntu 中源码编译docker，不知道从何下手，下载了源码编译了一下，遇到如下问题？这是缺少什么依赖吗？ # github.com/docker/docker/volume/mounts volume/mounts/mounts.go:116:6: undefined: "github.com/docker/docker/vendor/github.com/pkg/errors".Is # github.com/docker/docker/pkg/archive pkg/archive/archive_linux.go:155:18: undefined: strings.ReplaceAll pkg/archive/archive_linux.go:242:18: undefined: strings.ReplaceAll # github.com/docker/docker/daemon/logger/loggerutils daemon/logger/loggerutils/logfile.go:179:8: undefined: "github.com/docker/docker/vendor/github.com/pkg/errors".Is
Docker源码分析（一）：Docker架构
Tisfy: 顶！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。