ElasticSearch集成IK分词器及类型文档映射

最新推荐文章于 2024-08-23 14:17:45 发布

璞砆

最新推荐文章于 2024-08-23 14:17:45 发布

阅读量2.6k

点赞数

分类专栏：框架

本文链接：https://blog.csdn.net/qq_42136250/article/details/89601176

版权

本文详细介绍了如何在ElasticSearch中集成IK分词器，包括Maven打包、插件安装、配置和测试分词效果。同时，探讨了文档映射的概念，解释了ES如何根据字段类型进行数据处理，并列举了基本和复杂数据类型。此外，还提到了默认映射、自定义映射以及动态模板的使用。

摘要由CSDN通过智能技术生成

(一)IK分词器的认识

ES默认对英文文本的分词器支持较好，但和lucene一样，如果需要对中文进行全文检索，那么需要使用中文分词器，同lucene一样，在使用中文全文检索前，需要集成IK分词器。

ES的IK分词器插件源码地址：https://github.com/medcl/elasticsearch-analysis-ik

① Maven打包IK插件
② 解压target/releases/elasticsearch-analysis-ik-5.2.2.zip文件
并将其内容放置于ES根目录/plugins/ik
③ 配置插件：
插件配置:plugin-descriptor.properties
④ 分词器（可默认）
词典配置：config/IKAnalyzer.cfg.xml
⑤ 重启ES
⑥ 测试分词器
POST _analyze
{
“analyzer”:“ik_smart”,
“text”:“中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首”
}

注意：IK分词器有两种类型，分别是ik_smart分词器和ik_max_word分词器。
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；