ElasticSearch倒排索引

倒排索引是一种常用的索引结构,用于快速搜索文档中的某个词汇。

倒排索引的结构与传统的索引结构相反,传统的结构是有文档组成,文档对应了若干词汇,而倒排索引是由词汇构成,每个词汇对应的若干个文档,然后根据这些个文档建立索引。

正排索引

ID文档内容
id1文档1
id2文档2
id3文档3

倒排索引

关键词文档ID
深入1,2
理解1,2,3
java2,3

        对于一个包含多个词汇的文档,倒排索引会将每个词汇作为一个关键字(Term),然后记录下该词汇所在的文档编号(DocumentID)及该词汇在文档中的位置(Term Position)。这样,当用户输入一个关键字时,就可以快速地查找到包含该关键字的文档编号,然后通过文档编号再查找到对应的文档内容。 

示例:

一个简单的倒排索引的例子如下:

考虑三个文档:

文档1: “Java核心技术”
文档2: “Java编程思想”
文档3: “Java并发编程”
倒排词典可能如下所示:

Java: {1, 2, 3}
核心: {1}
技术: {1}
编程: {2,3}
思想: {2}
并发: {1}

在这个例子中,单词 “Java” 出现在所有三个文档中,因此它的倒排列表包含文档ID {1, 2, 3}。同理,其他单词也有相应的倒排列表。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值