关闭

我理解的倒排索引

247人阅读 评论(0) 收藏 举报
分类:


关于倒排索引技术,英文名是Inverted index,其实应该称之为“反过来索引”会比较好。


网页中爬出来的页面一般称之为文本,将这些文本的关键词和路径保存到数据库中。正常的索引是从文本的ID编号(数据库编号)去搜索文本中的词,当文本中包含关键词时,给出文本路径链接。


倒排索引则是一个逆过程。首先搜索引擎会爬下来网页文本,对文本检索关键词,并将关键词保存在数据库中,关键词后面对应的保存相关文章的ID号。当用户搜索时,取出用户填写的关键词,根据关键词去检索文章的ID号,然后再对所有检索到的文章做排序推荐。


相比于正常的推荐过程,倒排索引是逆过程的,所以可以直接理解成“反过来索引”。这坑爹的英文翻译,简直了。

而倒过来索引的最简单的理解是某个关键词,对应若干个文本。倒排索引就是通过搜索某个关键词,去索引若干个文本。


如下图示:



DOC1中包含KEY1,而KEY1却同时包含在DOC1和DOC4中。所谓倒排索引就是通过KEY去索引到文本DOC。




0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:65334次
    • 积分:1500
    • 等级:
    • 排名:千里之外
    • 原创:94篇
    • 转载:0篇
    • 译文:0篇
    • 评论:40条
    最新评论