ES 分词器

最新推荐文章于 2024-04-28 13:17:57 发布

lqbz---

最新推荐文章于 2024-04-28 13:17:57 发布

阅读量8.5k

点赞数 2

分类专栏： elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/u012700515/article/details/122011291

版权

本文介绍了Elasticsearch（ES）在处理中文分词时遇到的问题，以及如何解决这个问题。默认的standard分词器无法有效处理中文，因此推荐使用IK分词器。文章详细讲解了离线安装IK分词器的过程，以及IK分词器的两种模式：ik_smart和ik_max_word。此外，还讨论了分词器的原理，包括字典匹配和个性化设置，如拓展和停用词的配置方法。通过修改ikAnalyzer.cfg.xml文件并重启ES，可以实现对分词器的优化，例如将‘老铁’添加为可分词词汇并移除停用词‘的’。

摘要由CSDN通过智能技术生成

分词器：

ES在创建倒排索引时需要对文档分词。
在搜索时，需要对用户输入内容分词。

但默认的分词规则对中文处理并不友好。

在kibana的DevTools中测试：

POST /_analyze
{
"analyzer": "standard",
"text": "张三老铁学习java！"
}

post代表请求方式。
/_analyze代表分词分析。
analyzer分词类型，这里是默认的standard分词器。
text要分词的内容。

中文都直接被拆分成了一个个汉字，所以不能此分词器，要用lk分词器。

安装ik分词器
在线安装，不推荐较慢

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

离线安装，推荐

# 查看elasticsearch的plugins目录位置
docker volume inspect es-plugins

最低0.47元/天解锁文章

lqbz---

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
ES 分词器

分词器：ES在创建倒排索引时需要对文档分词。在搜索时，需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。在kibana的DevTools中测试：POST /_analyze{"analyzer": "standard","text": "张三老铁学习java！"}post代表请求方式。/_analyze代表分词分析。analyzer分词类型，这里是默认的standard分词器。text要分词的内容。中文都直接被拆分成了一个个汉字，所以不能此分词器，要用lk分词器。
复制链接

扫一扫