昨天写了一章倒排索引的文章。今天写关于索引系统的一些知识。因为最近比较闲,呵呵。所以把前段时间学习的东西整理一下。
索引系统---就是把文档集合转化为倒排表的形式,并储存成倒排文件的过程。
文档集合用 doc1 ---> key1, key2, key3 ............... 这种形式描述。key1,key2。。。为文档中不可再分割的词。
倒排表的形式
key1 ----> doc1
key2 ----> doc2
key3 ----> doc3
所以索引系统就是 把文档经过分词的形式转化为倒排表的形式。
所以索引系统可以分为以下几个步骤:
1. 得到一篇文档,给该文档赋予唯一ID
2. 让文档经过分词系统。把文档变换成向量形式 doc(key1,key2,key3,key4,key5,........)
3. 将doc(key1,key2,key3,...)形式进行反转,使他成为倒排表表形似。并在反转的过程中,统计每一个词频。由此可以算出每个词的TF
,也称做Score(该值对于以后的检索排序和检索文章形似度有作用)。
倒排表表形似:
key1 ------> doc1,Score1
key2 ------> doc2,Score2
key3 ------> doc3,Score3
当多个文档时倒排表形式:
key1 ------> doc1,Score1 doc2,Score4
key2 ------> doc2,Score2 doc2,Score5
key3 ------> doc3,Score3 doc2,Score6
4. 然而以上的形式对于大量数据的到来,将会使倒排表右边部分迅速的膨胀,则会影响倒排表的检索速度。所以对倒排表右部进行改变,我们把倒排表的右部份单独储存在一个文件里,然后再把原来倒排表右部替换为储存在该文件的偏移地址。这样倒排表的形式就发生了该变。
新倒排表表形似:
key1 ------> filename1,pos1,len1
key2 ------> filename2,pos2,len2
key3 ------> filename3,pos3,len3
这样新形式的倒排表,在大量数据的情况下,就只会占用很少的空间。