一个案例弄懂ElasticSearch分词匹配原理和同义词

基础:ES支持两种同义方式。一种是单向同义词,一种是双向同义词。

臀部,臀,屁股
斑=>斑,雀斑   
i-pod,i pod,i pad =>ipod

说明:对于臀部,臀,屁股。我们可以理解成相互完全等价。对于“斑”“雀斑”,如果文章分词后包含“斑”,会自动存入“斑”“雀斑”两个字词,这样搜索斑或者雀斑都会命中该文章。如果使用"i-pod","i pod","i pad"转为"ipod”,那就会出现一个问题就是在因为存储的是"ipod”,所以搜"i pad"就不会命中该文章了。不推荐使用这种方式。

 

需求:今天有一个需求,我们认为“超声提升”和“超声刀”是一种东西,想实现搜“超声提升”同时出现“超声提升”和“超声刀”的文章。

实践:

第一步、我们先在同义词配置了"超声提升,超声刀",这时候搜索的“超声提升”,发现无法召回超声刀的文章。这是因为虽然配置了同义词,因为旧的ES索引在建立的时候并不知道这对同义词,所以需要重跑索引。

第二步、我们重跑了文章的索引,这时候搜索的“超声提升”,仍然无法召回“超声刀”的文章。这是因为搜索“超声提升”,search_analyzer会把他分词成“超声”和“提升”,而索引中存的是“超声提升”,无法命中。所以需要搜索分词。

第三步、我们分析了“超声提升”,这个词没有比较分词。于是我们把“超声提升”加入分词dict。这样搜索“超声提升”就会按照“超声提升”去搜索。完美解决。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值