建立索引

最新推荐文章于 2024-10-27 12:59:29 发布

tianqio

最新推荐文章于 2024-10-27 12:59:29 发布

阅读量703

点赞数

文章标签：算法文档 merge 负载均衡

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianqio/article/details/4183214

版权

1. 索引是指倒排表

两种算法如下：

a. 将termid--docid 进行排序，termid为主键，docid为次键，然后建立termid到docid的倒排，例如：

I --- 1 AB ---3 AB[1] ---3

I ----2 ----> I -----1 ---------> I[2] ---1 ,2

AB --3 I -----2

b.创建一个集合，将termid加入到集合，如果已经存在，则将docid进行append，否则加入，最好将集合进行排序

2. 如果索引非常大一致不能全部放在内存里则有两种思路

算法1： $/begin{figure} % latex2html id marker 4995 /begin{algorithm}{BSBIndexConstructio... ...s in files $f_1,/ldots,f_n$/ and the merged index in $f_{merged}$.} /end{figure}$

/includegraphics[width=11.5cm]{art/figure4.3.eps}

即先读入一块放入内存，进行排序，然后输出，最后将硬盘上的多块进行merge

算法2. 根据set的算法，当set满时输出到硬盘，最后也是一个merge的算法

如果索引更大，一台机器不能满足，则需要分布式，分布式有两种，根据term和文档，根据term的分布式如下:

采用map-reduce，根据上面的算法1， map从文档获取term，并将term排序输出，reduce将term进行合并分割到一台机器上。

根据文档来分则比较简单：不同的文档放在不同的机器上进行上面的单机算法

二者的比较：按term分能够获得更高的并发性（并发用户的查询被分成不同term，不同term直接是并发的），但需要合并不同term时要在节点间传递更多的内容，同时由于term在问的那个分布的不均，负载均衡比较困难，因为term有热门term，不同的机器承受的压力不一样。因此实际中往往采用的按文档分布

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。