ElasticSearch IK中文分词插件安装使用 linux

最新推荐文章于 2024-06-02 14:31:57 发布

urnotsuperman

最新推荐文章于 2024-06-02 14:31:57 发布

阅读量369

点赞数

分类专栏：工作

本文链接：https://blog.csdn.net/ilovecr7/article/details/107203927

版权

最近用到了es，打算系统的总结一下，先写一篇备忘。英文分词是通过空格，英文词语是通过空格分隔的比较好理解，举个栗子，在kibana dev_tools/console运行下面查询GET _analyze{"analyzer" : "standard", "text" : "hello world es hahha"}返回结果如下{ "tokens" : [ { "token" : "hello", "start_offset" : 0,

摘要由CSDN通过智能技术生成

可能一年才能想起来写一次博客居然没忘记密码。。。最近用到了es各种坑坑绊绊，打算系统的总结一下，先写一篇备忘。

es英文分词默认是通过空格之类的拆分成单词吧，举个栗子，在kibana dev_tools/console运行下面查询


GET _analyze
{"analyzer" : "standard",  "text" : "hello world es hahha"}

返回结果如下

{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "world",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "es",
      "start_offset" : 12,
      "end_offset" : 14,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "hahha",
      "start_offset" : 15,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 3
    }
  ]
}

如果是有中文搜索，es 默认的analyzer是standard分词，对于中文会按单个文字拆分，比如这么一句话“这是一首简单的小情歌”，每个字都是一个索引，就没有了单词的概念，这时搜索就会返回一些不是想要的结果。

GET _analyze
{"analyzer" : "standard",

最低0.47元/天解锁文章

urnotsuperman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch IK中文分词插件安装使用 linux

最近用到了es，打算系统的总结一下，先写一篇备忘。英文分词是通过空格，英文词语是通过空格分隔的比较好理解，举个栗子，在kibana dev_tools/console运行下面查询GET _analyze{"analyzer" : "standard", "text" : "hello world es hahha"}返回结果如下{ "tokens" : [ { "token" : "hello", "start_offset" : 0,
复制链接

扫一扫