ES学习记录10.4--ES分析器(中文分词IK)

1. 安装

IK在github上的工程IK Analysis for Elasticsearch,安装IK分词器(进入ES的bin目录),以目前学习的版本6.4为例:

elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.0/elasticsearch-analysis-ik-6.4.0.zip

注:如果版本ES版本不一样,那IK分析器也不同,只需要将上述命令中的6.4.0改成对应的版本号即可(只支持5.5.1+版本)。

2. IK Analyzer

 IK Analysis插件支持内置的分析器Analyzer有:ik_smartik_max_word,内置的标记过生成器Tokenizer有:ik_smartik_max_word

  • ik_smart:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,共和国,共和,国,国歌”,穷尽各种可能的组合(在6.4.0版本不会穷尽各种可能);
  • ik_max_word:会将文本做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”;

在第一步中安装IK分词器完毕后可以调用其中的Analyzer或Tokenizer进行验证,如:

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d'
{
   
  "analyzer": "ik_smart",
  "text": "中华人民共和国国歌"
}
'

// 测试结果
{
   
    "tokens": [
        {
   
            "token": "中华人民共和国",
            "start_offset": 0,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 0
        },
        {
   
            "token": "国歌",
            "start_offset": 7,
            "end_offset": 9,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

下面是一些github上的栗子:

// 1. 创建测试索引
curl -XPUT http://localhost
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中设置你的sqlite3词典的位置:ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默认的词典:https://github.com/zacker330/es-ik-sqlite3-dictionary 2. 安装(目前是1.0.1版本)./bin/plugin -i ik-analysis -u https://github.com/zacker330/es-ik-plugin-sqlite3-release/raw/master/es-ik-sqlite3-1.0.1.zip 3. 现在可以测试了:     1. 创建index curl -X PUT -H "Cache-Control: no-cache" -d '{     "settings":{         "index":{             "number_of_shards":1,             "number_of_replicas": 1         }     } }' 'http://localhost:9200/songs/'      2. 创建map: curl -X PUT -H "Cache-Control: no-cache" -d '{         "song": {             "_source": {"enabled": true},             "_all": {                 "indexAnalyzer": "ik_analysis",                 "searchAnalyzer": "ik_analysis",                 "term_vector": "no",                 "store": "true"             },             "properties":{                 "title":{                     "type": "string",                     "store": "yes",                     "indexAnalyzer": "ik_analysis",                     "searchAnalyzer": "ik_analysis",                     "include_in_all": "true"                 }             }         } }     ' 'http://localhost:9200/songs/_mapping/song'       3.curl -X POST  -d '林夕为我们作词' 'http://localhost:9200/songs/_analyze?analyzer=ik_analysis' response: {"tokens":[{"token":"林夕","start_offset":0,"end_offset":2,"type":"CN_WORD","position":1},{"token":"作词","start_offset":5,"end_offset":7,"type":"CN_WORD","position":2}]} 标签:中文分词  分词插件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值