ElasticSearch中文分词器

最新推荐文章于 2024-10-02 22:34:07 发布

小菜鸡_

最新推荐文章于 2024-10-02 22:34:07 发布

阅读量31

点赞数

文章标签： elasticsearch 中文分词 jenkins 大数据搜索引擎

未经允许不得随意转载，著作权归__盛某人所有

本文链接：https://blog.csdn.net/NaXieNianWoMenYiQ/article/details/133085666

版权

Lucene的IK分词器早在2012年已经没有维护了，现在我们要使用的是在其基础上维护升级的版本，并且开发为ElasticSearch的集成插件了，与Elasticsearch一起维护升级，版本也保持一致，最新版本：6.3.0

1.5.1.安装

https://github.com/medcl/elasticsearch-analysis-ik/releases

使用unzip命令解压：

unzip elasticsearch-analysis-ik-6.3.0.zip -d ik-analyzer

然后重启elasticsearch：

1.5.2.测试

大家先不管语法，我们先测试一波。

在kibana控制台输入下面的请求：

POST _analyze
{
  "analyzer": "ik_max_word",
  "text":     "我是中国人"
}

运行得到结果：

{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "中国人",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "中国",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "国人",
      "start_offset": 3,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 4
    }
  ]
}