Elasticsearch(010):es中中文分词器IK-Analyzer实战

中文分词器(IK-Analyzer)

1. 下载ik分词器

网址:https://github.com/medcl/elasticsearch-analysis-ik

下载对照ES版本的分词器版本。

注意

ik分词器的版本需要es保持一致。

2. 安装分词器

将分词器拷贝到服务器的ES安装目录plugins文件夹下,新建ik文件夹,解压到其中即可。

三台机器分别执行一样的操作,然后重新启动es服务。

3. 测试

#测试中文分词器
GET _analyze
{
  "text":"测试分词器,spring cloud实战",
  "analyzer":"ik_max_word"
}

结果如下

{
  "tokens" : [
    {
      "token" : "测试",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "分词器",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "分词",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "器",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "spring",
      "start_offset" : 5,
      "end_offset" : 11,
      "type" : "ENGLISH",
      "position" : 4
    },
    {
      "token" : "cloud",
      "start_offset" : 12,
      "end_offset" : 17,
      "type" : "ENGLISH",
      "position" : 5
    },
    {
      "token" : "实战",
      "start_offset" : 17,
      "end_offset" : 19,
      "type" : "CN_WORD",
      "position" : 6
    }
  ]
}

由此可见分词器起作用了。

4. 拓展使用

ik分词器有两种分词模式:ik_max_word和ik_smart模式。

4.1 ik_max_word

会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国中华人民中华华人人民共和国人民共和国大会堂大会会堂等词语。

4.2 ik_smart

会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国人民大会堂

4.3 自定义词库

如果要让分词器支持一些专有词语,可以自定义词库。iK分词器自带一个main.dic的文件,此文件为词库文件。在上边的目录中新建一个my.dic文件,配置文件中配置my.dic即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值