Elasticsearch中间隔查询slop原理

我现在主要做的业务是有关实时查询功能相关的,用的最多的就是elasticsearch,前端时间碰到一个特别有趣的问题,跟大家分享一下。

 

前几天有用户反馈间隔查询的问题,真实的数据在这不方便展示,我就用自己的一个假数据案例给大家还原一下真实场景。

 

客户A: 我在你们数据库查询标题,“中华 共和国 (间隔2字内)”为什么查不到“中华人民共和国民法通则”这个记录呢?
我:收到,我这边排查一下问题哈。(特别客气的回复)

内心os: 这tm怎么可能呢,明明就是两个字的啊,难道是我写了个bug?

打开我的mac本,开始排查一顿操作,确实是没有,查询结果见下图:

下图为不做间隔查询的结果:

(在此说明一下,我中文分词器用的是ik分词器)
此刻我的内心:

此时开始google,询问我们项目组的大神。一顿讨论下来,难道es为了效率,用的是它分词后的position。

查看“中华人民共和国民法通则”的分词结果:

可以看到“中华”和“共和国”之间按照postion,间隔为4。
然后修改一下我们的查询语句,操作看一下:

居然可以了!!!!

 

总结一下这个问题:

es的间隔查询是按照分词后下面的postion之间的间隔,这样保证了它的效率。

如果我们使用ik分词的话,这个查询会让我们造成误解,对我们实际的意义不大。

如果我们分词使用的是逐字分词(比如standard),还是不错的。

 

小编叨逼叨:

脱离业务谈技术都是耍流氓。任何技术都不是完美的,结合业务选择合适的技能负责任的好猿。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值