ElasticSearch之mapping分词器选择

前言

市场上分词器,眼花缭乱,让你一脸懵逼。

  • Standard: 单字切分法,一个字切分成一个词。

  • CJKAnalyzer: 二元切分法, 把相邻的两个字, 作为一个词.

  • SmartChineseAnalyzer: 对中文支持较好, 但是扩展性差, 针对扩展词库、停用词均不好处理.

  • paoding`: 庖丁解牛分词器, 没有持续更新, 只支持到lucene3.0。

  • mmseg4`: 支持Lucene4.10, 且在github中有持续更新, 使用的是mmseg算法.

  • Whitespace分词器:去除空格,不支持中文,对生成的词汇单元不进行其他标准化处理。

  • language分词器:特定语言的分词器,不支持中文。

  • IK-analyzer: 最受欢迎的分词器。

···········································································

可以看到分词器非常多,其实我们只需要关注两个就可以了。

1、standard

2、ik分词器

大家常说ElasticSearch中内置的分词器standard,更确切的说是Lucene内置的,ES是Lucene提供支持的。

IK分词器

IK分词器有两种分词模式:ik_max_word和ik_smart模式。

ik_max_word:

最细粒度的查询,分出的词条最多。

ik_smart:

最粗粒度的查询,大体切分一下,分出的词条比较少。

简单测试

举个例子,我们对下面这句话进行分词,分别使用三种算法,大家先猜测一下结果

万里长城是中国的象征。

使用es内置standard分词算法:

在这里插入图片描述
使用ik_max_word分词算法:
在这里插入图片描述

使用ik_smart分词算法:
在这里插入图片描述
话不多说,很明显的可以看到区别。

问题

有一种说法是,创建索引时使用ik_max_word分词器,最大程度上进行分词,搜索时使用id_smart分词器,保持准确度。

第二种说法是,创建索引使用的分词器和搜索时使用的分词器必须对应,保持一致,否则会导致搜索冲突。

到底哪种是对的呢?

我,小老犇,两个都不招惹,我说第三种说法,哈哈

首先,明确两个操作

1、创建索引时指定分词器,我们这个字段所有的内容都会被分词后存入分片中。

2、搜索时指定分词器,我们的关键字会被分词,然后进ES分片中进行匹配,倒排索引机制。

其次,一定要在创建mapping的时候指定分词器,不要使用默认的分词器。

这种操作的结果就是,你在查询的时候,不用指定分词器了,还是同样使用默认的分词器吧。使用其他分词器的话,结果就乱了。

最后,第一种方法想的挺美好的,似乎有那么点道理,但有可能会出问题,搜索出来的结果有问题,稳妥一点,按第二种方法来,创建mapping时指定分词器和查询事指定的分词器,保持一致。

这里有的人说了,我没有保持一致,搜索出来的结果照样没问题啊。
有以下几种可能:
1、你索引库的内容和全文检索的字段内容挺少的
2、创建mapping时用的什么分词器
3、查询时用了什么分词器,分词器组合有好几种,可能就碰巧了。

我也遇到过没有保持一致,但是搜索结果没问题的情况,但最好还是保持一致。

······················································································
关于分词器的问题,可以一起讨论,有啥不一样的想法私信我或者评论区都可以。

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值