处理中文分词 ik分词器以及拓展和停止字典

最新推荐文章于 2024-04-18 18:14:16 发布

其然乐衣

最新推荐文章于 2024-04-18 18:14:16 发布

阅读量685

点赞数

分类专栏： Docker kibana 文章标签：中文分词

本文链接：https://blog.csdn.net/QRLYLETITBE/article/details/125705985

版权

Docker 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

kibana

1 篇文章 0 订阅

订阅专栏

一. 处理中文分词以及 ik分词器的应用

解决：

1. 在es-plugins中添加安装 ik分词器

IK分词器包含两种模式：

ik_smart：最少切分
ik_max_word：最细切分

2. 容器es重启(命令：docker restart es)后，

进行ik_smart 或 ik_max_word分词器的运用便可以将中文按照中文含义进行分词了

测试例子：

GET /_analyze

{

"analyzer": "ik_max_word",

"text": "黑马程序员学习java太棒了"

}

结果：

{

"tokens" : [

{

"token" : "黑马",

"start_offset" : 0,

"end_offset" : 2,

"type" : "CN_WORD",

"position" : 0

},

{

"token" : "程序员",

"start_offset" : 2,

"end_offset" : 5,

"type" : "CN_WORD",

"position" : 1

},

{

"token" : "程序",

"start_offset" : 2,

"end_offset" : 4,

"type" : "CN_WORD",

"position" : 2

},

{

"token" : "员",

"start_offset" : 4,

"end_offset" : 5,

"type" : "CN_CHAR",

"position" : 3

},

{

"token" : "学习",

"start_offset" : 5,

"end_offset" : 7,

"type" : "CN_WORD",

"position" : 4

},

{

"token" : "java",

"start_offset" : 7,

"end_offset" : 11,

"type" : "ENGLISH",

"position" : 5

},

{

"token" : "太棒了",

"start_offset" : 11,

"end_offset" : 14,

"type" : "CN_WORD",

"position" : 6

},

{

"token" : "太棒",

"start_offset" : 11,

"end_offset" : 13,

"type" : "CN_WORD",

"position" : 7

},

{

"token" : "了",

"start_offset" : 13,

"end_offset" : 14,

"type" : "CN_CHAR",

"position" : 8

}

]

}