ElasticSearch分词器，包括默认分词器、英文分词器、中文分词器

最新推荐文章于 2024-09-22 21:14:36 发布

王者NO1

最新推荐文章于 2024-09-22 21:14:36 发布

阅读量1k

点赞数 8

文章标签： jenkins 运维

本文链接：https://blog.csdn.net/wangzheno2/article/details/142145060

版权

注：测试环境：CentOS Linux release 7.6.1810 (Core)
jdk:1.8
elasticsearch:6.8.2 单节点

es 安装：1.ElasticSearch安装教程与注意事项以及集群环境搭建_名猿陈大浏的博客-CSDN博客
es添加索引：2.ElasticSearch添加、查询、修改、删除索引入门教程_名猿陈大浏的博客-CSDN博客

导图（用于总结和复习）

注：使用 GET _analyze 可以使用分词器查看分词结果，例：

以上用例是使用 analyzer 指定英文分词器查看分词结果，如果field是索引里的字段，会使用字段指定的分词器进行分词。

接下来进入测试。

默认分词器
默认使用standard分词器

在不标明的时候都是使用默认的standard分词

在建索引的时候，使用 analyzer 指定字段分词器

测试数据：

分别执行以上的测试脚本，最后发现使用“李小雷”也能搜索出 name 为“李雷”的文档。这是因为 name 默认使用了 standard 分词器。可以通过以下方法查看分词器的分词结果。例：

这里field使用name，就会使用name的默认分词器standard

可以看到 standard 分词器会把中文拆分成一个一个的汉字，搜索条件只需要满足一个汉字就能搜索出结果，所以“李小雷”能搜索到“李雷”。中文一般不建议直接使用这种分词器，否则没有效果了，后面会介绍中文分词器。

英文分词器

这里field使用introduce，就会使用introduce的分词器english。

英文分词器会把单词的词干提取出来。当我们使用条件搜索的时候，也会提取查询单词的词干与分词结果匹配，所以搜索的时候只要有满足分词结果的词干就会有搜索结果。

使用 "appl" 和 "apples" 可以搜索到结果，因为搜索的时候都会解析成"appl"。但是如果使用app就不能搜索到结果，因为app跟english分词器的分词结果appl不匹配。

中文分词器
中文分词需要安装插件：analysis-ik

网址：GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

安装命令：

1.进入es主目录：cd /usr/lib/elasticsearch/elasticsearch-0/

2.执行安装命令：./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.2/elasticsearch-analysis-ik-6.8.2.zip

注意版本号一定要对应

安装完成后

cd plugins

说明已经安装好了

安装好后可以进词库文件查看词库，命令：

cd /usr/lib/elasticsearch/elasticsearch-0/config/analysis-ik/

vi main.dic

词库量很大不做展示。接下来做测试。

测试脚本（需要删除历史数据重新创建）：

#1.删除 /test下的测试数据
DELETE /test/

#2.给字段添加限制类型，使用analyzer添加分词方式，不标明的时候默认使用standard分词器，也可以标明english使用英文分词器
PUT /test
{
"settings": {
"number_of_shards": 1,
"number_of_replicas": 1
},
"mappings": {
"_doc":{
"properties":{
"name":{"type":"text"},
"age":{"type":"integer"},
"introduce":{"type":"text","analyzer":"english"},
"address":{"type":"text","analyzer":"ik_max_word"},
"address2":{"type":"text","analyzer":"ik_smart"}
}
}
}
}

#3.添加测试数据：李雷
PUT /test/_doc/1
{
"name":"李雷",
"age":12,
"engname":"Lilei",
"introduce":"My name is Lilei, I like eating apples and running",
"address":"我家住在南京市长江大桥",
"address2":"我家住在南京市长江大桥"
}

#4.测试中文分词
GET /test/_search
{
"query": {
"match": {
"address": "南京市"
}
}
}

#测试中文分词器ik_max_word
GET /test/_analyze
{
"field": "address",
"text" : "我家住在南京市长江大桥"
}
#测试中文分词器ik_smart
GET /test/_analyze
{
"field": "address2",
"text" : "我家住在南京市长江大桥"
}