Elasticsearch分析器（analyzer）以及与spring boot整合

最新推荐文章于 2024-10-28 22:30:20 发布

程序员lgb

最新推荐文章于 2024-10-28 22:30:20 发布

阅读量1.9k

点赞数 2

文章标签： elasticsearch spring boot es 搜索引擎

本文链接：https://blog.csdn.net/lgb190730/article/details/107882929

版权

本文详细介绍了Elasticsearch的分析器（analyzer），包括内置的分词器、中文分词器如IK、HanLP、pinyin的安装与使用，并通过实例演示了如何在实际应用中设置mapping、插入数据和查询。此外，还讲解了如何在Spring Boot项目中整合Elasticsearch，从添加依赖、获取ElasticsearchTemplate到定义实体类和查询操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1 analysis与analyzer

analysis(只是一个概念)，文本分析是将全文本转换为一系列单词的过程，也叫分词。analysis是通过analyzer(分词器)来实现的，可以使用Elasticsearch内置的分词器，也可以自己去定制一些分词器。除了在数据写入的时候将词条进行转换，那么在查询的时候也需要使用相同的分析器对语句进行分析。

anaylzer是由Character Filter、Tokenizer和Token Filter三部分组成，例如有

Hello a World, the world is beautiful

：

Character Filter: 将文本中html标签剔除掉。
Tokenizer: 按照规则进行分词，在英文中按照空格分词。
Token Filter: 去掉stop world(停顿词，a, an, the, is, are等)，然后转换小写。

1.1 内置的分词器

分词器名称	处理过程
Standard Analyzer	默认的分词器，按词切分，小写处理
Simple Analyzer	按照非字母切分(符号被过滤)，小写处理
Stop Analyzer	小写处理，停用词过滤(the, a, this)
Whitespace Analyzer	按照空格切分，不转小写
Keyword Analyzer	不分词，直接将输入当做输出
Pattern Analyzer	正则表达式，默认是\W+(非字符串分隔)

1.2 内置分词器示例

例如：

A. Standard Analyzer

GET _analyze
{
   
  "analyzer": "standard",
  "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening"
}

B. Simple Analyzer

GET _analyze
{
   
  "analyzer": "simple",
  "text": "2 Running quick brown-foxes leap over lazy dog in the summer evening"
}

1.3 中文分词

中文分词在所有的搜索引擎中都是一个很大的难点，中文的句子应该是切分成一个个的词，一句中文，在不同的上下文中，其实是有不同的理解，例如下面这句话：

这个苹果不大好吃/这个苹果不大好吃

1.3.1 IK分词器

IK分词器支持自定义词库，支持热更新分词字典，地址为 https://github.com/medcl/elasticsearch-analysis-ik

elasticsearch-plugin.bat install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

安装步骤：

下载zip包，下载路径为：https://github.com/medcl/elasticsearch-analysis-ik/releases
在Elasticsearch的plugins目录下创建名为 analysis-ik 的目录，将下载好的zip包解压在该目录下
在dos命令行进入Elasticsearch的bin目录下，执行 elasticsearch-plugin.bat list 即可查看到该插件

IK分词插件对应的分词器有以下几种：

ik_smart
ik_max_word

1.3.2 HanLP

安装步骤如下：

下载ZIP包，下载路径为：https://pan.baidu.com/s/1mFPNJXgiTPzZeqEjH_zifw#list/path=%2F，密码i0o7
在Elasticsearch的plugins目录下创建名为 analysis-hanlp 的目录，将下载好的zip包解压在该目录下.
下载词库，地址为：https://github.com/hankcs/HanLP/releases
将analyzer-hanlp目录下的data目录删掉，然后将词库 data-for-1.7.5.zip 解压到anayler-hanlp目录下
将第2步解压目录下的 config 文件夹中两个文件 hanlp.properties hanlp-remote.xml 拷贝到ES的家目录中的config目录下 analysis-hanlp 文件夹中(analyzer-hanlp 目录需要手动去创建)。
将课件中hanlp文件夹中提供的六个文件拷贝到 $ES_HOME\plugins\analysis-hanlp\data\dictionary\custom 目录下。

HanLP对应的分词器如下：

hanlp，默认的分词
hanlp_standard，标准分词
hanlp_index，索引分词
hanlp_nlp，nlp分词
hanlp_n_short，N-最短路分词
hanlp_dijkstra，最短路分词
hanlp_speed，极速词典分词

1.3.3 pinyin分词器

安装步骤：

下载ZIP包，下载路径为：https://github.com/medcl/elasticsearch-analysis-pinyin/releases
在Elasticsearch的plugins目录下创建名为 analyzer-pinyin 的目录，将下载好的zip包解压在该目录下.

1.4 中文分词演示

ik_smart

GET _analyze
{
   
  "analyzer": "ik_smart",
  "text": ["剑桥分析公司多位高管对卧底记者说，他们确保了唐纳德·特朗普在总统大选中获胜"]
}

hanlp

GET _analyze
{
   
  "analyzer": "hanlp",
  "text": ["剑桥分析公司多位高管对卧底记者说，他们确保了唐纳德·特朗普在总统大选中获胜"]
}

1.5 分词的实际应用

在如上列举了很多的分词器，那么在实际中该如何应用？

1.5.1 设置mapping

要想使用分词器，先要指定我们想要对那个字段使用何种分词，如下所示：

PUT customers
{
   
  "mappings": {
   
    "properties": {
   
      "content": {
   
        "type": "text",
        "analyzer": "hanlp_index"
      }
    }
  }
}