elasticsearch-ik分词器

这里用的分词器版本是elasticsearch-analysis-ik-7.16.1.zip,和elasticsearch是相同的版本,这样不容易出错。

每个节点的elasticsearch中都要安装elasticsearch-analysis-ik。


安装过程

1. linux安装zip解压器

yum -y install unzip

2. 在原来的elasticsearch安装目录中的plugins目录下创建一个名为ik的文件夹

mkdir -p /usr/local/elasticsearch-7.16.1/plugins/ik

3. 把elasticsearch-analysis-ik-7.16.1.zip压缩包解压到elasticsearch安装目录ik的文件夹下

unzip elasticsearch-analysis-ik-7.16.1.zip -d /usr/local/elasticsearch-7.16.1/plugins/ik

4. 安装ik完成,启动elasticsearch


设置mapping(给分词器设置分词的规则)

Analyzer分词配置解释:

Ik_smart:粗粒度分词,比如中华人民共和国国歌,会拆分为中华人民共和国,国歌;
Ik_max_word:细粒度分词,比如中华人民共和国国歌,会拆分为中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国等各种组合,会穷尽各种可能的组合。

关于字段类型type配置解释:

Text数据类型被用来索引长文本,这些文本会被分析,在建立索引前会将这些文本进行分词,转化为词的组合,建立索引。允许ES来检索这些词语。Text数据类型不能用来排序和聚合。
Keyword数据类型用来建立电子邮箱地址,姓名,邮政编码和标签等数据,不需要进行分词。可以被用来检索过滤,排序和聚合。Keyword类型字段只能用本身来进行检索。
当然还有其他类型,比如Double等

用命令行去创建索引,添加,查询(测试时可以这样写)。

1. 创建索引ik

在这里插入图片描述

2. 添加分词规则(设置映射)

在这里插入图片描述

3. 在ik索引中添加内容

在这里插入图片描述

4. 查询数据

在这里插入图片描述

查询出两条符合的记录

在这里插入图片描述

注:上面用“中”是查询不到任何记录的。



如果有一些名词,不能让分词器拆分,需要配置一下。

1.打开/usr/local/elasticsearch-7.16.1/plugins/ik/config目录

2.创建custom.dic文件,写入不能拆分的词语

3.打开IKAnalyzer.cfg.xml,将新建的custom.dic配置其中

在这里插入图片描述

4.重启elasticsearch服务器。

IK中文分词器Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中设置你的sqlite3词典的位置:ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默认的词典:https://github.com/zacker330/es-ik-sqlite3-dictionary 2. 安装(目前是1.0.1版本)./bin/plugin -i ik-analysis -u https://github.com/zacker330/es-ik-plugin-sqlite3-release/raw/master/es-ik-sqlite3-1.0.1.zip 3. 现在可以测试了:     1. 创建index curl -X PUT -H "Cache-Control: no-cache" -d '{     "settings":{         "index":{             "number_of_shards":1,             "number_of_replicas": 1         }     } }' 'http://localhost:9200/songs/'      2. 创建map: curl -X PUT -H "Cache-Control: no-cache" -d '{         "song": {             "_source": {"enabled": true},             "_all": {                 "indexAnalyzer": "ik_analysis",                 "searchAnalyzer": "ik_analysis",                 "term_vector": "no",                 "store": "true"             },             "properties":{                 "title":{                     "type": "string",                     "store": "yes",                     "indexAnalyzer": "ik_analysis",                     "searchAnalyzer": "ik_analysis",                     "include_in_all": "true"                 }             }         } }     ' 'http://localhost:9200/songs/_mapping/song'       3.curl -X POST  -d '林夕为我们作词' 'http://localhost:9200/songs/_analyze?analyzer=ik_analysis' response: {"tokens":[{"token":"林夕","start_offset":0,"end_offset":2,"type":"CN_WORD","position":1},{"token":"作词","start_offset":5,"end_offset":7,"type":"CN_WORD","position":2}]} 标签:中文分词  分词插件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值