ES007-Elasticsearch中文分词集成

1、elasticsearch官方
只提供smartcn这个中文分词插件,效果不是很好

2、引入分词器前命令行下测试
curl 'http://localhost:9200/jf/_analyze?pretty=true' -d '{"text":"京东商城"}'

现象是按照每个单词进行要给分词

3、集成IK分词工具
3.1:下载es的IK插件https://github.com/medcl/elasticsearch-analysis-ik
这里选择v1.4.0 版本,具体可以访问:https://github.com/medcl/elasticsearch-analysis-ik/tree/v1.4.0,然后点击"Download Zip "


3.2:使用maven进行编译下载的源码


3.3:把编译后的target/releases下的elasticsearch-analysis-ik-1.4.0.zip文件拷贝到ES_HOME/plugins/analysis-ik目录下面,然后解压

3.4:把下载的ik插件中的conf/ik目录拷贝到ES_HOME/config下

3.5:修改ES_HOME/config/elasticsearch.yml文件,添加index.analysis.analyzer.default.type: ik(把IK设置为默认分词器)

3.6:重启es服务

3.7:测试分词效果: curl 'http://localhost:9200/jf/_analyze?analyzer=ik&pretty=true' -d '{"text":"京东商城"}'


[root@mycluster service]#  curl 'http://localhost:9200/jf/_analyze?analyzer=ik&pretty=true' -d '{"text":"京东商城"}'
{
  "tokens" : [ {
    "token" : "text",
    "start_offset" : 2,
    "end_offset" : 6,
    "type" : "ENGLISH",
    "position" : 1
  }, {
    "token" : "京东",
    "start_offset" : 9,
    "end_offset" : 11,
    "type" : "CN_WORD",
    "position" : 2
  }, {
    "token" : "京",
    "start_offset" : 9,
    "end_offset" : 10,
    "type" : "CN_WORD",
    "position" : 3
  }, {
    "token" : "东",
    "start_offset" : 10,
    "end_offset" : 11,
    "type" : "CN_CHAR",
    "position" : 4
  }, {
    "token" : "商城",
    "start_offset" : 11,
    "end_offset" : 13,
    "type" : "CN_WORD",
    "position" : 5
  } ]
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

艾文教编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值