ElasticSearch中文分词，看这一篇就够了

最新推荐文章于 2024-09-04 02:00:28 发布

且听_风吟

最新推荐文章于 2024-09-04 02:00:28 发布

阅读量3.8w

点赞数 128

分类专栏： ElasticSearch相关技术文章标签： java elasticsearch

本文链接：https://blog.csdn.net/qq_26803795/article/details/106522611

版权

本文详细介绍了ElasticSearch内置分词器对中文处理的局限性，并通过实例演示了如何安装与使用IK分词器解决中文分词问题。通过编译源码和上传插件到docker环境中的ElasticSearch，实现了中文分词的配置和测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面：我是「且听风吟」，目前是某上市游戏公司的大数据开发工程师，热爱大数据开源技术，喜欢分享自己的所学所悟，现阶段正在从头梳理大数据体系的知识，以后将会把时间重点放在Spark和Flink上面。

如果你也对大数据感兴趣，希望在这个行业一展拳脚。欢迎关注我，我们一起努力，一起学习。博客地址：https://ropledata.blog.csdn.net

博客的名字来源于：且听风吟，静待花开。也符合我对技术的看法，想要真正掌握一门技术就需要厚积薄发的毅力，同时保持乐观的心态。

你只管努力，剩下的交给时间！

在这里插入图片描述

文章目录

一、前言

本文版本说明：

ElasticSearch版本：7.7 （目前最新版）

Kibana版本：7.7（目前最新版）

前文咱们围绕Elasticsearch最新版进行了上万字的详细解析，相信看过的朋友对Elasticsearch及kibana等工具的极速安装配置印象深刻，也至少会对Elasticsearch有一个入门的掌握。
前文链接：ElasticSearch最新版快速入门详解

本文咱们深入一些，详细分析一下Elasticsearch的中文分词，并顺便解答和演示一下上篇文章有朋友对docker安装的Elasticsearch如何支持中文分词的疑问。好了，废话不多说，让我们开始吧！
在这里插入图片描述

二、内置分词器解析

咱们知道Elasticsearch之所以模糊查询这么快，是因为采用了倒排索引，而倒排索引的核心就是分词，把text格式的字段按照分词器进行分词并编排索引。为了发挥自己的优势，Elasticsearch已经提供了多种功能强大的内置分词器，它们的作用都是怎样的呢？能处理中文吗？咱们往下看！

2.1、内置分词器梳理

首先咱们可以对Elasticsearch提供的内置分词器的作用进行如下总结：

分词器	作用
Standard	ES默认分词器，按单词分类并进行小写处理
Simple	按照非字母切分，然后去除非字母并进行小写处理
Stop	按照停用词过滤并进行小写处理，停用词包括the、a、is
Whitespace	按照空格切分
Language	据说提供了30多种常见语言的分词器
Patter	按照正则表达式进行分词，默认是`\W+` ,代表非字母
Keyword	不进行分词，作为一个整体输出

可以发现，这些内置分词器擅长处理单词和字母，所以如果咱们要处理的是英文数据的话，它们的功能可以说已经很全面了！那处理中文效果怎么样呢？下面咱们举例验证一下。

2.2、内置分词器对中文的局限性

首先咱们创建一个索引，并批量插入一些包含中文和英文的数据：

// 创建索引
PUT /ropledata
{
  "settings": { 
    "number_of_shards": "2", 
    "number_of_replicas": "0"
  } 
}
// 批量插入数据
POST _bulk
{ "create" : { "_index" : "ropledata",

最低0.47元/天解锁文章