我理解的倒排索引

原创 2016年06月14日 16:19:31


关于倒排索引技术,英文名是Inverted index,其实应该称之为“反过来索引”会比较好。


网页中爬出来的页面一般称之为文本,将这些文本的关键词和路径保存到数据库中。正常的索引是从文本的ID编号(数据库编号)去搜索文本中的词,当文本中包含关键词时,给出文本路径链接。


倒排索引则是一个逆过程。首先搜索引擎会爬下来网页文本,对文本检索关键词,并将关键词保存在数据库中,关键词后面对应的保存相关文章的ID号。当用户搜索时,取出用户填写的关键词,根据关键词去检索文章的ID号,然后再对所有检索到的文章做排序推荐。


相比于正常的推荐过程,倒排索引是逆过程的,所以可以直接理解成“反过来索引”。这坑爹的英文翻译,简直了。

而倒过来索引的最简单的理解是某个关键词,对应若干个文本。倒排索引就是通过搜索某个关键词,去索引若干个文本。


如下图示:



DOC1中包含KEY1,而KEY1却同时包含在DOC1和DOC4中。所谓倒排索引就是通过KEY去索引到文本DOC。




版权声明:本文为博主原创文章,未经博主允许不得转载。

倒排索引的简单实现

倒排索引的简单实现    倒排索引是搜索引擎中常用的算法,主要用来实现full text searching,建立关键词和所在文档的映射关系,很多强大的功能都建立在此基础之上,关于I...

搜索引擎-倒排索引基础知识

搜索引擎的索引 1.单词——文档矩阵        单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,...
  • hguisu
  • hguisu
  • 2012年09月11日 19:49
  • 75373

正排索引(forward index)与倒排索引(inverted index)

一、正排索引(前向索引) 正排索引也称为"前向索引"。它是创建倒排索引的基础,具有以下字段。 (1)LocalId字段(表中简称"Lid"):表示一个文档的局部编号。 (2)WordId字段:表...

倒排索引结构

简单总结:倒排索引它记录的是词,和词所存在的文档id。的所有列表。通过这种索引结构的存储方式,其查询速率可想而知。 什么叫搜索引擎? 很多朋友认为lucene就是搜索引擎,其实这是不对的。既然是搜索引...

正排索引和倒排索引

正排索引(正向索引) 正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 正排表结构如图1所示,这种组织方法在建立索引的时...

倒排索引原理

单词文档矩阵(搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构)倒排索引基本概念文档(Document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存...

Lucene 工作原理 之倒排索引

1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索...

ElasticSearch所使用的倒排索引的思想和使用场景

ElasticSearch所使用的倒排索引的思想和使用场景
  • king866
  • king866
  • 2016年12月10日 12:16
  • 3646

全文检索:倒排索引的理解

一.定义:是基于单词-文档矩阵的一种存储形式,它描述了一个term词项集合和文档集合之间具有映射关系的数据结构。           1.      term词项集合列表:定义要搜索的一些词...

Inverted File Index 文件倒排索引 课件理解与习题解

倒排索引是一种文件搜索的方式,它是搜索引擎实现的基础。它将文件内容中的词建立成索引,以此为依据搜索符合条件的文件。本文将根据高级数据结构课程课件简要介绍文件倒排索引的建立及其特点,然后重点进行pta中...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:我理解的倒排索引
举报原因:
原因补充:

(最多只允许输入30个字)