今日关键字 索引

上篇文章信息检索的过程中提到“索引”一次,可能大家对它还不太理解,我当时学习时也是很吃力的。所以特写下这篇文章针对索引展开讨论。

Q1.为什么要提出索引的概念?

A1.传统的查找,虽结构简单,可当数据达到TB级别时,查找速度是无法忍受的。于是索引便运应而生了。它大大提高了检索速度。

Q2.什么是索引?

A2.索引就是对文档的预处理,就是在文档间建立的数据结构。也可以这样说,索引是一种从某个词指向相关文档的指针。不过索引不支持快速的信息变更。因为这涉及到数据内容的变更,需要对整个数据结构中的关系链进行维护。

Q3.建立索引有哪些方式?

A3.倒排、后缀数组、签名文件。而其中倒排方式建立索引最为常用,所以不再赘述其他方式。

 

倒排的定义

倒排没有严格的文字定义,但是理解起来非常简单,很符合我们的思维模式。比如说:在我的《水煮三国》一书中的第16页有“长短经”一词。那么在倒排了之后,“长短经”就被作为一个单独的关键词切分出来,保存在索引中。于是当我搜索“长短经”一词时,就会连带的出现“长短经——第16页——《水煮三国》”。这样的搜索比起从文档的第一句开始逐句搜索快速的多。

 

倒排的特点

1.少量关键字能涵盖文本数据库中的大量信息。据统计,1GB的文本信息,关键字只有5MB左右。

2.倒排的时候耗时多。因为需要对文本进行分词、切词,还要构建索引结构,记录位置信息,同时维护相关内容。

3.倒排后,索引一旦建立,搜索效率会大幅度提高。而且建立起来的索引不需要高频地变更。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值