建立ik中文分词器

1.下载elasticsearch-analysis-ik

https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.4.2

2.上传至linux服务器

3.解压

 unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
4.进入到/usr/local/elasticsearch-7.4.2/plugins/ik,可以看到已经解压的ik中文分词器

5.切换到普通用户,重启es进程

 6.测试 

根据github上提供的说明,我们现在可以不用es内置默认的分词器,用elasticsearch-analysis-ik提供的分词器进行测试

 6.1 ik_max_word 会做最细腻粒度的拆分,如此,体现出我们上下五千年博大精深的文化。

 返回:

{
	"tokens": [
		{
			"token": "上下班",
			"start_offset": 0,
			"end_offset": 3,
			"type": "CN_WORD",
			"position": 0
		},
		{
			"token": "上下",
			"start_offset": 0,
			"end_offset": 2,
			"type": "CN_WORD",
			"position": 1
		},
		{
			"token": "下班",
			"start_offset": 1,
			"end_offset": 3,
			"type": "CN_WORD",
			"position": 2
		},
		{
			"token": "班车",
			"start_offset": 2,
			"end_offset": 4,
			"type": "CN_WORD",
			"position": 3
		},
		{
			"token": "车流量",
			"start_offset": 3,
			"end_offset": 6,
			"type": "CN_WORD",
			"position": 4
		},
		{
			"token": "车流",
			"start_offset": 3,
			"end_offset": 5,
			"type": "CN_WORD",
			"position": 5
		},
		{
			"token": "流量",
			"start_offset": 4,
			"end_offset": 6,
			"type": "CN_WORD",
			"position": 6
		},
		{
			"token": "很大",
			"start_offset": 6,
			"end_offset": 8,
			"type": "CN_WORD",
			"position": 7
		}
	]
}

6.2 ik_smart  拆分粒度粗糙

返回:

{
	"tokens": [
		{
			"token": "上下班",
			"start_offset": 0,
			"end_offset": 3,
			"type": "CN_WORD",
			"position": 0
		},
		{
			"token": "车流量",
			"start_offset": 3,
			"end_offset": 6,
			"type": "CN_WORD",
			"position": 1
		},
		{
			"token": "很大",
			"start_offset": 6,
			"end_offset": 8,
			"type": "CN_WORD",
			"position": 2
		}
	]
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@所谓伊人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值