索引系统

昨天写了一章倒排索引的文章。今天写关于索引系统的一些知识。因为最近比较闲,呵呵。所以把前段时间学习的东西整理一下。

 

索引系统---就是把文档集合转化为倒排表的形式,并储存成倒排文件的过程。

 

文档集合用 doc1 ---> key1, key2, key3 ............... 这种形式描述。key1,key2。。。为文档中不可再分割的词。

倒排表的形式

            key1 ----> doc1

            key2 ----> doc2

            key3 ----> doc3

所以索引系统就是 把文档经过分词的形式转化为倒排表的形式。

 

 

所以索引系统可以分为以下几个步骤:

   1.   得到一篇文档,给该文档赋予唯一ID

   2.   让文档经过分词系统。把文档变换成向量形式 doc(key1,key2,key3,key4,key5,........)

   3.   将doc(key1,key2,key3,...)形式进行反转,使他成为倒排表表形似。并在反转的过程中,统计每一个词频。由此可以算出每个词的TF

,也称做Score(该值对于以后的检索排序和检索文章形似度有作用)。

         倒排表表形似:

                         key1 ------> doc1,Score1

                         key2 ------> doc2,Score2

                         key3 ------> doc3,Score3

 

        当多个文档时倒排表形式:

                         key1 ------> doc1,Score1  doc2,Score4

                         key2 ------> doc2,Score2  doc2,Score5

                         key3 ------> doc3,Score3  doc2,Score6

 

  4. 然而以上的形式对于大量数据的到来,将会使倒排表右边部分迅速的膨胀,则会影响倒排表的检索速度。所以对倒排表右部进行改变,我们把倒排表的右部份单独储存在一个文件里,然后再把原来倒排表右部替换为储存在该文件的偏移地址。这样倒排表的形式就发生了该变。

         新倒排表表形似:

                         key1 ------> filename1,pos1,len1

                         key2 ------> filename2,pos2,len2 

                         key3 ------> filename3,pos3,len3

  

 这样新形式的倒排表,在大量数据的情况下,就只会占用很少的空间。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
构建倒排索引系统可以使用MySQL数据库来实现。 首先,我们创建一个表来存储倒排索引的数据。这个表可以包含以下字段: 1. term:存储单词或关键词; 2. doc_id:存储相关文档的ID; 3. position:存储该词在文档中的位置信息。 接下来,我们可以使用MySQL的索引功能来提高查询效率。针对term和doc_id字段,创建相应的索引。这样,当我们查询某个单词时,可以快速地找到相关的文档和位置信息。 在构建倒排索引时,我们可以将文档拆分成单词或关键词,并将其插入到倒排索引表中。具体步骤如下: 1. 遍历所有文档,对每个文档进行分词或提取关键词的操作。 2. 将分词或关键词与文档ID、位置信息一起插入倒排索引表中。 例如,假设我们有两个文档id为1和2,内容分别为:“数据库是计算机科学的重点课程。”和“倒排索引是一种常见的数据结构。”,我们的倒排索引表可能如下所示: | term | doc_id | position | | -------- | ------ | -------- | | 数据库 | 1 | 1 | | 计算机科学 | 1 | 3 | | 重点课程 | 1 | 4 | | 倒排索引 | 2 | 1 | | 常见 | 2 | 3 | | 数据结构 | 2 | 5 | 当我们需要查询某个单词时,只需在倒排索引表中查找该词,即可获得相关文档和位置信息。 通过使用MySQL构建倒排索引系统,我们可以实现高效的单词查询和搜索功能。此外,我们还可以通过对倒排索引表添加额外的字段来支持更复杂的搜索需求,比如文档的标题、作者等信息。 总结起来,通过使用MySQL构建倒排索引系统可以实现快速高效的单词查询和搜索功能,并可以灵活地满足不同的搜索需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值