ElasticSearch中iK分词器的两种分词算法以及自定义分词配置

分词:就是把我们要查询的数据拆分成一个个关键字,我们在搜索时,ElasticSearch会把数据进行分词,然后做匹配。默认的中文分词器会把每一个中文拆分,比如“番茄呦呦”,会拆分成“番”,“茄”,“哟”,“哟”,显然,这并不符合我们的要求,所以ik分词器(中文分词器)能解决这个问题。

ik分词器存在两种分词算法:

ik_smart,ik_max_word。其中ik_smart称为智能分词,网上还有别的称呼:最少切分,最粗粒度划分。ik_max_word称为最细粒度划分。

当然我们也可以自定义分词配置

安装好ik分词器后,启动ElasticSearch以及kibana。使用kibana测试

ik_smart测试

GET _analyze
{
  "analyzer": "ik_smart",
  "text": "番茄呦呦 Nerver give up"
}

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ElasticsearchIK分词是一种分词,可以将文文本分成一个个有意义的词语,以便于搜索和分析。它支持细粒度和粗粒度两种分词模式,可以根据不同的需求进行配置IK分词还支持自定义词典和停用词,可以提高分词的准确性和效率。在ElasticsearchIK分词是非常常用的分词之一。 ### 回答2: Elasticsearch是一个开源的搜索引擎,旨在提供实时搜索和分析功能。作为强大的搜索引擎,Elasticsearch极大的依赖于高效的分词。而其IK分词是目前常见的分词之一。 IK分词是一款用于分词的工具。它采用了一种基于规则和词库相结合的分词算法。通常情况下,IK分词的工作流程是:首先,将文本按照信息增益、词频、文本跨度等属性计算得到其初始的分词结果。然后,IK分词通过对分词结果进行多轮处理,逐渐优化分词结果,以达到更为准确、严谨的分词效果。 此外,IK分词还具备一些较为强大的功能。例如,支持文姓名、词语拼音、数字、英文、日文等的分词处理。支持自定义词典、停用词、同义词等配置。支持了多种分词模式,如细粒度分词模式,搜索引擎分词模式和最少分词模式等等。这些功能的不断完善和升级,使IK分词逐渐成为在文文本分析领域常用的分词之一。 总体来说,IK分词Elasticsearch的应用是非常广泛的,它不仅能够提高搜索效果,而且还能加强文本拓展和分析的功能。随着数据量的不断增长和应用场景的不断拓展,对于一款高效、灵活的分词的需求越来越大。相信IK分词在未来的应用,会有更加广泛的空间和应用。 ### 回答3: Elasticsearchik分词是一种常用的文全文检索分词,能够对文文本进行分词,将整篇文本划分成有意义的词语,并且支持多种分词模式。 该分词的优点在于,它采用了基于词典和规则的分词算法,对分词效果非常好,特别是对于一些细分领域的专业术语等难分难识的词汇,在ik分词的支持下也能够准确地被识别和分词。另外,ik分词还支持自定义词典,可以根据应用场景自定义添加词汇,进一步提高分词效果和搜索准确率。 除此之外,ik分词还支持多种分词模式,包括最细粒度分词模式、普通分词模式、搜索分词模式和面向文搜索的ik_smart分词模式等,可以根据实际需求进行选择和配置。 总之,ik分词Elasticsearch一个非常实用的分词组件,对于文全文检索和搜索应用具有重要的作用,可以提高搜索效果、加速搜索响应速度,为用户提供更加优质的搜索服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值