ElasticSearch倒排索引

最新推荐文章于 2024-07-28 22:24:14 发布

置顶周天祥

最新推荐文章于 2024-07-28 22:24:14 发布

阅读量3.3w

点赞数 3

分类专栏：大数据 ElasticSearch 文章标签： ElasticSearch

本文链接：https://blog.csdn.net/u014646662/article/details/88413298

版权

大数据同时被 2 个专栏收录

84 篇文章 2 订阅

订阅专栏

ElasticSearch

52 篇文章 16 订阅

订阅专栏

ElasticSearch倒排索引

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表，以及对于每个单词在文档中的位置组成。
例如，我们有两个文档，每个文档 content 字段包含：

The quick brown fox jumped over the lazy dog
Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先切分每个文档的 content 字段为单独的单词（我们把它们叫做词(terms)或者表征(tokens)），把所有的唯一词放入列表并排序，结果是这个样子的：

Term	Doc_1	Doc_2
Quick		x
The	X
brown	X	X
dog	X
dogs		x
fox	X
foxes		x
in		x
jumped	X
lazy	X	X
leap		x
over	X	X
quick	X
summer		x
the	X

现在，如果我们想搜索 "quick brown" ，我们只需要找到每个词在哪个文档中出现即可：

Term	Doc_1	Doc_2
brown	X	X
quick	X
-----	-------	-----
Total	2	1

两个文档都匹配，但是第一个比第二个有更多的匹配项。如果我们加入简单的相似度算法(similarity algorithm)，计算匹配单词的数目，这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。
但是在我们的倒排索引中还有些问题：

"Quick" 和 "quick" 被认为是不同的单词，但是用户可能认为它们是相同的。
"fox" 和 "foxes" 很相似，就像 "dog" 和 "dogs" ——它们都是同根词。
"jumped" 和 "leap" 不是同根词，但意思相似——它们是同义词。

上面的索引中，搜索 "+Quick +fox" 不会匹配任何文档（记住，前缀 + 表示单词必须匹配到）。只有 "Quick" 和 "fox" 都在同一文档中才可以匹配查询，但是第一个文档包含 "quick fox" 且第二个文档包含 "Quick foxes" 。
用户可以合理地希望两个文档都能匹配查询，我们也可以做得更好。
如果我们将词为统一为标准格式，这样就可以找到不是确切匹配查询，但是足以相似从而可以关联的文档。

例如：