建立索引

1. 索引是指倒排表

两种算法如下:

a. 将termid--docid 进行排序,termid为主键,docid为次键,然后建立termid到docid的倒排,例如:

I --- 1                    AB ---3                       AB[1] ---3

I ----2          ---->   I -----1  --------->       I[2]   ---1 ,2

AB --3                    I -----2

 

b.创建一个集合,将termid加入到集合,如果已经存在,则将docid进行append,否则加入,最好将集合进行排序

 

2. 如果索引非常大一致不能全部放在内存里则有两种思路

算法1: /begin{figure}
% latex2html id marker 4995
/begin{algorithm}{BSBIndexConstructio...
...s in files
$f_1,/ldots,f_n$/ and the merged index in $f_{merged}$.}
/end{figure}

 

/includegraphics[width=11.5cm]{art/figure4.3.eps} 

 

即先读入一块放入内存,进行排序,然后输出,最后将硬盘上的多块进行merge

 

算法2.  根据set的算法,当set满时输出到硬盘,最后也是一个merge的算法

 

 

如果索引更大,一台机器不能满足,则需要分布式,分布式有两种,根据term和文档,根据term的分布式如下:

采用map-reduce, 根据上面的算法1, map从文档获取term,并将term排序输出,reduce将term进行合并分割到一台机器上。

 

根据文档来分则比较简单:不同的文档放在不同的机器上进行上面的单机算法

二者的比较:按term分能够获得更高的并发性(并发用户的查询被分成不同term,不同term直接是并发的),但需要合并不同term时要在节点间传递更多的内容,同时由于term在问的那个分布的不均,负载均衡比较困难,因为term有热门term,不同的机器承受的压力不一样。因此实际中往往采用的按文档分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值