[ElasticSearch系列三] Elasticsearch IK分词器介绍、下载、安装及使用

最新推荐文章于 2024-08-05 21:16:38 发布

北九二七

最新推荐文章于 2024-08-05 21:16:38 发布

阅读量2.3k

点赞数

分类专栏：专栏十五 : elasticsearch 专栏五 : 软件安装文章标签： ik elasticsearch linux

本文链接：https://blog.csdn.net/m0_62866192/article/details/121608590

版权

专栏五 : 软件安装同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

专栏十五 : elasticsearch

6 篇文章 9 订阅

订阅专栏

前言

我们在elasticsearch中查询数据时默认使用的是标准分词器(analyze),它会将所查词汇中的每个字单独分成一个词,因此我们就引进IK分词器,对中文进行分词,此外对中文进行分词的分词器还有很多(例:word分词器、庖丁解牛、盘古分词,Ansj分词等)

例如: 我是程序员
analyze分词器效果是: 我、是、程、序、员
IK分词器效果 : 我、是、程序、程序员

前面我们分析了ElasticSearch的安装步骤
[ElasticSearch系列二] Linux中单机ElasticSearch安装教程+启动【附图解说】_萌小崔的博客-CSDN博客

本章主要对Elasticsearch 中插件 IK分词器进行介绍及使用坐下解释

介绍 - IK分词器

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本.最初，它是以开源项目Lucene为应用主体的，结合词典分词和语法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现.

IK分词器3.0的特性

采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力
采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字,字科学计数法,中文词汇（姓名、地名处理）等分词处理
对中英联合支持不是很好,在这方面的处理比较麻烦.需再做一次查询,同时是支持个人词条的优化的词典存储，更小的内存占用.
支持用户词典扩展定义
针对Lucene全文检索优化的查询分析器IKQueryParser；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率.

下载 - IK分词器

官网下载地址: Releases · medcl/elasticsearch-analysis-ik · GitHub

注意 : 一定要下载和你所使用的Elasticsearch版本相同的IK分词器

安装 - IK分词器

步骤一: 将下载好的 elasticsearch-analysis-ik-6.6.2.zip 解压并重命名为ik

步骤二:将ik分词器上传到我们的es的plugins/ik目录下,后重启系统

步骤三:启动elasticsearch,验证ik分词器

安装成功!!

使用 - IK分词器 - 两个IK分析器

ik_smart: 将文本做最细粒度的拆分

例: '我是程序员' 拆分为我、是、程序员

k_max_word: 将文本做最细粒度的拆分

例: '我是程序员' 拆分为我、是、程序、程序员‘

用法
在查询字段后制定IK分词器即可,分析器二选一自定,看下面实例
{
  "query": {
    "match": {
      "analyzer": "ik_max_word",
      "content": "中国新闻网"
    }
  }
}

如有问题,留言互动,一同进步!!

Thanks!

北九二七

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
[ElasticSearch系列三] Elasticsearch IK分词器介绍、下载、安装及使用

elasticsearch中查询数据默认使用的是标准分词器(analyze)会将所查词汇中的每个字单独分成一个词,因此我们就引进IK分词器,对中文进行分词,此外对中文进行分词的分词器还有很多(例:word分词器、庖丁解牛、盘古分词,Ansj分词等)前面我们分析了ElasticSearch的安装,本章主要对Elasticsearch中插件IK分词器进行介绍及使用
复制链接

扫一扫