倒排索引是谁翻译的?

昨天,很多买了 Elasticsearch 的网友,在群里问:“Elasticsearch 中的索引为什么叫倒排索引?很难理解!”

这一问,立马引起了很多人的注意,包含很多没关注过倒排索引的人。今天我们一起来看看,为什么叫倒排索引?

有倒排就有正排。其中正排索引是这样的,在一篇文章中,我们去找某些关键字,这叫正排索引。

反过来,根据关键字去找某一篇文章,就叫做倒排索引。

倒排索引,英文名叫:Inverted index。也常被称为反向索引、置入档案或反向档案,翻译成倒排索引,完全是一种翻译“错误”。只不过最初翻译的人,可能是相当正排序来翻译的,并不是根据字面意思来翻译的,随着大家都叫习惯了之后,倒排索引就流传开来了。

之所以不好理解,完全是被最开始翻译的人带坑里了。当然,作为第一个翻译者承受的压力也是巨大的。但是我们的思维完全不要局限于倒排索引的这个“倒”字。

如果说,A—Z 算是正排序的话,倒排序应该是 Z—A 吧。但其实 Elasticsearch 并不是这样的!所以,我个人更喜欢于把它翻译成反向索引。


比如,我现在有一个类似上面的文档。文档内容中的词,我们忽略。那么,现在我们来模仿着创建一个倒排索引列表。


实际代码中,可以根据不同的分词插件和实现代码分出不同的词。比如,业余草,在不同的分词组建下,可能被分为:“业余,草”两个词,公众号也可能被分为“公众,号”。所以,对于我上面具体的分词是否恰当,大家不要太过于纠结!

有了这个分词之后,就相当于建立了倒排索引(反向索引)。那么我们就可以根据关键词来搜索出对应的文档了。

比如,当我搜索“业余草”关键词的时候,1、2、3 这三篇文章就会被搜索出来。这和我们在文章中搜索关键词,通过关键词来搜索文章,完全是一种反向思维。所以说是反向索引更为合适,如果你硬要死搬硬套倒排,那就不好走出思维陷阱了。

总之,你这样理解就好了:

正排:文档——>关键词

倒排:关键词——>文档
-----------------------------------
©著作权归作者所有:来自51CTO博客作者mob604756f0e582的原创作品,请联系作者获取转载授权,否则将追究法律责任
倒排索引是翻译错误?到底是谁在甩锅!
https://blog.51cto.com/u_15127568/2713504

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值