搜索架构引擎、方案与细节

搜索架构引擎、方案与细节

参考
搜索架构

       文字很多,有宏观,有细节,对于大部分不是专门研究搜索引擎的同学,记住以下几点即可:
(1)全网搜索引擎系统由spider, search&index, rank三个子系统构成
(2)站内搜索引擎与全网搜索引擎的差异在于,少了一个spider子系统
(3)spider和search&index系统是两个工程系统,rank系统的优化却需要长时间的调优和积累
(4)正排索引(forward index)是由网页url_id快速找到分词后网页内容list<item>的过程
(5)倒排索引(inverted index)是由分词item快速寻找包含这个分词的网页list<url_id>的过程
(6)用户检索的过程,是先分词,再找到每个item对应的list<url_id>,最后进行集合求交集的过程
(7)有序集合求交集的方法有
         a)二重for循环法,时间复杂度O(n*n)
         b)拉链法,时间复杂度O(n)
         c)水平分桶,多线程并行
         d)bitmap,大大提高运算并行度,时间复杂度O(n)
         e)跳表,时间复杂度为O(log(n))

       自研搜索的话,历史数据怎么迁移到新的架构上。产生数据的业务服务是否要重构?工程上要考虑哪些方面和流程?

(1)数据初始化,需要重建索引
(2)为了保证数据一致性,索引紧密性,也需要定期重建索引
(3)搜索的接口、架构变化了,调用需要升级

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值