elasticsearch分词与分词器

最新推荐文章于 2024-05-10 03:35:26 发布

娃哈哈一排有几瓶

最新推荐文章于 2024-05-10 03:35:26 发布

阅读量107

点赞数

分类专栏：内置分词器 IK中文分词器文章标签： elasticsearch 搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41550712/article/details/122318618

版权

内置分词器同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

IK中文分词器

1 篇文章 0 订阅

订阅专栏

一、分词与内置分词器

1.什么是分词？

把文本转换为一个个的单词，分词称之为analysis。es默认只对英文语句做分词，中文不支持，每个中文字都会被拆分为独立的个体。

英文分词：Today is Wednesday!
中文分词：今天也是打工人！

POST /_analyze
{
    "analyzer": "standard",
    "text": "text文本"
}

或者

POST /my_doc/_analyze
{
    "analyzer": "standard",
    "field": "name",
    "text": "text文本"
}

postman测试结果
在这里插入图片描述

2.es内置分词器

• standard：默认分词，单词会被拆分，大小会转换为小写。
• simple：按照非字母分词（不是字母的不进行分词）。大写转为小写。
• whitespace：按照空格分词。忽略大小写。
• stop：去除无意义单词，比如the/a/an/is…
• keyword：不做分词。把整个文本作为一个单独的关键词。

二、IK中文分词器

Github地址下载IK中文分词器
在这里插入图片描述
将下载的文件上传至服务器并解压缩到指定的位置

• zip解压： unzip xxx.zip -d ik

重启elasticsearch查看分词效果

使用IK中文分词器前：
在这里插入图片描述
使用IK中文分词器后：

分词效果立竿见影

三、自定义中文词库

有些情况下，我们想搜索一个字或者词语，但是一般的分词器get不到我们想搜索的词，所以会把词语进行分词，这个时候，我们就需要自定义词库，把我们想搜索的词语放在词库里面，这样分词器就会把这些词语看做一个词条进行查询

1.在{es}/plugins/ik/config下，创建：

vim custom.dic

2.添加内容：

少年
学习
慕课网

3.配置自定义扩展词典

<entry key="ext_dict">custom.dic</entry>

4.重启

娃哈哈一排有几瓶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch分词与分词器

elasticsearch分词介绍，内置分词器的使用，IK中文分词器以及自定义词库
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。