一个案例弄懂ElasticSearch分词匹配原理和同义词

基础:ES支持两种同义方式。一种是单向同义词,一种是双向同义词。

臀部,臀,屁股
斑=>斑,雀斑   
i-pod,i pod,i pad =>ipod

说明:对于臀部,臀,屁股。我们可以理解成相互完全等价。对于“斑”“雀斑”,如果文章分词后包含“斑”,会自动存入“斑”“雀斑”两个字词,这样搜索斑或者雀斑都会命中该文章。如果使用"i-pod","i pod","i pad"转为"ipod”,那就会出现一个问题就是在因为存储的是"ipod”,所以搜"i pad"就不会命中该文章了。不推荐使用这种方式。

 

需求:今天有一个需求,我们认为“超声提升”和“超声刀”是一种东西,想实现搜“超声提升”同时出现“超声提升”和“超声刀”的文章。

实践:

第一步、我们先在同义词配置了"超声提升,超声刀",这时候搜索的“超声提升”,发现无法召回超声刀的文章。这是因为虽然配置了同义词,因为旧的ES索引在建立的时候并不知道这对同义词,所以需要重跑索引。

第二步、我们重跑了文章的索引,这时候搜索的“超声提升”,仍然无法召回“超声刀”的文章。这是因为搜索“超声提升”,search_analyzer会把他分词成“超声”和“提升”,而索引中存的是“超声提升”,无法命中。所以需要搜索分词。

第三步、我们分析了“超声提升”,这个词没有比较分词。于是我们把“超声提升”加入分词dict。这样搜索“超声提升”就会按照“超声提升”去搜索。完美解决。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Elasticsearch同义词过滤器实际上是一个基于词典的映射表,将同义词映射为一个或多个主词。在分析文本时,Elasticsearch 将会根据同义词过滤器中的词典,自动将同义词替换为对应的主词。 具体来说,当一个文本被索引到 Elasticsearch 中时,Elasticsearch 会先将文本分词,然后对每个词进行分析。在分析过程中,如果遇到一个同义词Elasticsearch 就会将其替换为对应的主词,然后继续进行分析。这样,同义词就能够被视为相同的词汇,从而实现同义词检索。 同义词过滤器的实现依赖于 Elasticsearch 的分析器。分析器由一系列分词器和过滤器组成,其中分词器将文本分割成单词,而过滤器则对单词进行处理。同义词过滤器就是一种特殊的过滤器,它会在分析过程中,对单词进行同义词替换。 同义词过滤器的词典可以是一个文本文件,也可以是一个 Elasticsearch 索引。如果使用文本文件,可以在词典中指定同义词,每行一个同义词,用空格或逗号分隔。如果使用 Elasticsearch 索引,可以通过查询 API 动态获取同义词,从而实现动态的同义词检索。 总之,Elasticsearch同义词过滤器实现了同义词检索的功能,通过自动将同义词转换为主词,实现了对同义词的处理和索引。这使得 Elasticsearch 能够更加准确地匹配用户的查询,并返回更加精确的搜索结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值