索引系统

昨天写了一章倒排索引的文章。今天写关于索引系统的一些知识。因为最近比较闲,呵呵。所以把前段时间学习的东西整理一下。

 

索引系统---就是把文档集合转化为倒排表的形式,并储存成倒排文件的过程。

 

文档集合用 doc1 ---> key1, key2, key3 ............... 这种形式描述。key1,key2。。。为文档中不可再分割的词。

倒排表的形式

            key1 ----> doc1

            key2 ----> doc2

            key3 ----> doc3

所以索引系统就是 把文档经过分词的形式转化为倒排表的形式。

 

 

所以索引系统可以分为以下几个步骤:

   1.   得到一篇文档,给该文档赋予唯一ID

   2.   让文档经过分词系统。把文档变换成向量形式 doc(key1,key2,key3,key4,key5,........)

   3.   将doc(key1,key2,key3,...)形式进行反转,使他成为倒排表表形似。并在反转的过程中,统计每一个词频。由此可以算出每个词的TF

,也称做Score(该值对于以后的检索排序和检索文章形似度有作用)。

         倒排表表形似:

                         key1 ------> doc1,Score1

                         key2 ------> doc2,Score2

                         key3 ------> doc3,Score3

 

        当多个文档时倒排表形式:

                         key1 ------> doc1,Score1  doc2,Score4

                         key2 ------> doc2,Score2  doc2,Score5

                         key3 ------> doc3,Score3  doc2,Score6

 

  4. 然而以上的形式对于大量数据的到来,将会使倒排表右边部分迅速的膨胀,则会影响倒排表的检索速度。所以对倒排表右部进行改变,我们把倒排表的右部份单独储存在一个文件里,然后再把原来倒排表右部替换为储存在该文件的偏移地址。这样倒排表的形式就发生了该变。

         新倒排表表形似:

                         key1 ------> filename1,pos1,len1

                         key2 ------> filename2,pos2,len2 

                         key3 ------> filename3,pos3,len3

  

 这样新形式的倒排表,在大量数据的情况下,就只会占用很少的空间。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值