【Elasticsearch】中文分词器比对表

561 篇文章 547 订阅 ¥79.90 ¥99.00
本文将对Elasticsearch中常用的中文分词器进行对比,包括它们的特点、适用场景和性能等方面,帮助读者选择合适的分词解决方案。
摘要由CSDN通过智能技术生成

在这里插入图片描述

1.概述

分词器 分词粒度 出错情况 支持处理字符 新词识别 词性标注 认证方法 接口
BosonNLP 多选择 识别繁体字 Token RESTful
IKAnalyzer 多选择 兼容韩文日文 Jar
NLPIR 多选择 中文间隔符 未知 多语言接口
SCWS 多选择 未知 PHP、Cli
结巴分词 多选择 识别繁体字 Pyt
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
IK中文分词Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中设置你的sqlite3词典的位置:ik_analysis_db_path: /opt/ik/dictionary.db 我提供了默认的词典:https://github.com/zacker330/es-ik-sqlite3-dictionary 2. 安装(目前是1.0.1版本)./bin/plugin -i ik-analysis -u https://github.com/zacker330/es-ik-plugin-sqlite3-release/raw/master/es-ik-sqlite3-1.0.1.zip 3. 现在可以测试了:     1. 创建index curl -X PUT -H "Cache-Control: no-cache" -d '{     "settings":{         "index":{             "number_of_shards":1,             "number_of_replicas": 1         }     } }' 'http://localhost:9200/songs/'      2. 创建map: curl -X PUT -H "Cache-Control: no-cache" -d '{         "song": {             "_source": {"enabled": true},             "_all": {                 "indexAnalyzer": "ik_analysis",                 "searchAnalyzer": "ik_analysis",                 "term_vector": "no",                 "store": "true"             },             "properties":{                 "title":{                     "type": "string",                     "store": "yes",                     "indexAnalyzer": "ik_analysis",                     "searchAnalyzer": "ik_analysis",                     "include_in_all": "true"                 }             }         } }     ' 'http://localhost:9200/songs/_mapping/song'       3.curl -X POST  -d '林夕为我们作词' 'http://localhost:9200/songs/_analyze?analyzer=ik_analysis' response: {"tokens":[{"token":"林夕","start_offset":0,"end_offset":2,"type":"CN_WORD","position":1},{"token":"作词","start_offset":5,"end_offset":7,"type":"CN_WORD","position":2}]} 标签:中文分词  分词插件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九师兄

你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值