搜索架构引擎、方案与细节

最新推荐文章于 2018-10-23 13:55:33 发布

Hacker天使马晓培

最新推荐文章于 2018-10-23 13:55:33 发布

阅读量322

点赞数

分类专栏：大数据分布式系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mary881225/article/details/70173953

版权

大数据分布式系列专栏收录该内容

23 篇文章 0 订阅

订阅专栏

搜索架构引擎、方案与细节

参考
 搜索架构

       文字很多，有宏观，有细节，对于大部分不是专门研究搜索引擎的同学，记住以下几点即可：
（1）全网搜索引擎系统由spider， search&index， rank三个子系统构成
（2）站内搜索引擎与全网搜索引擎的差异在于，少了一个spider子系统
（3）spider和search&index系统是两个工程系统，rank系统的优化却需要长时间的调优和积累
（4）正排索引（forward index）是由网页url_id快速找到分词后网页内容list<item>的过程
（5）倒排索引（inverted index）是由分词item快速寻找包含这个分词的网页list<url_id>的过程
（6）用户检索的过程，是先分词，再找到每个item对应的list<url_id>，最后进行集合求交集的过程
（7）有序集合求交集的方法有
         a）二重for循环法，时间复杂度O(n*n)
         b）拉链法，时间复杂度O(n)
         c）水平分桶，多线程并行
         d）bitmap，大大提高运算并行度，时间复杂度O(n)
         e）跳表，时间复杂度为O(log(n))

自研搜索的话，历史数据怎么迁移到新的架构上。产生数据的业务服务是否要重构？工程上要考虑哪些方面和流程？

（1）数据初始化，需要重建索引
（2）为了保证数据一致性，索引紧密性，也需要定期重建索引
（3）搜索的接口、架构变化了，调用需要升级

Hacker天使马晓培

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。