Elasticsearch 配置 IK 扩展词典及隔离词典

1. 扩展词典

IK 提供了配置文件 IKAnalyzer.cfg.xml,可以用来配置自己的扩展词典和远程扩展词典,都可以配置多个。

配置完扩展词典和远程扩展词典都需要重启ES,后续对词典进行更新的话,扩展词典的话需要重启ES,远程扩展词典配置完后支持热更新,每60秒检查更新。两个扩展词典都是添加到 IK 的主词典中,对所有索引生效。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">my_ik.dic</entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<entry key="remote_ext_dict">http://localhost:8000/dic/remote.dic</entry>
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

远程扩展词典可使用 Nginx,修改 conf/nginx.conf 配置,再在 Nginx 安装目录下创建文件夹 dic,在里面放置远程词典。

server {
    listen       8000;
    server_name  localhost;
    
    # IK 远程扩展词典
    location /dic {
        alias dic;
    }
}

2. 隔离词典

IK 有个词典类 Dictionary,默认有三个词典:主词典 _MainDict、量词词典 _QuantifierDict 和停顿词典 _StopWords。在分词时,主要通过主词典进行分词匹配,分完的词在停顿词典中,就抛弃。IK 默认是在配置的时候,就初始化该词典类了,将词典文件加载到内存中。如果配置了远程词典,会在线程池中创建检查更新的任务,实现词典的热更新。远程扩展词典添加到主词典,远程扩展停顿词典添加到停顿词典。

在 ES 中使用时,IK 使用的都是同一个词典类,即默认那三个词典。如果要实现自定义分词,可以使用远程词典,远程词典都会加到原词典中,对所有的索引都生效。如果要实现索引间不同的分词需求,就需要对词库进行隔离。

所以可以在词典类 Dictionary 中可以添加一个新的词典,考虑到索引间不同的分词需求,存在词典间隔离,使用 Map 存储不同的词典。在创建索引的配置中,添加配置项,指定需要使用的词典。再创建相应的检查更新的任务,实现热更新。在分词时,在主词典的匹配方法中,前置添加对新词典的匹配,实现干预。

修改后源码见 GitHub shpunishment/elasticsearch-analysis-ik

在定义分词器时设置词典url来获取词典,实现不同索引使用不同的词典,然后在查询时进行干预。

PUT ik_test_1
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_ik_analyzer": {
          "tokenizer": "my_ik_tokenizer"
        }
      },
      "tokenizer": {
        "my_ik_tokenizer": {
          "type": "ik_max_word",
          "dict_url": "http://localhost:8123/dict/1"
        }
      }
    }
  }
}

参考:
Elasticsearch配置IK分词器的远程词库
Elasticsearch-6.2.4源码启动,插件开发
IK分词器 原理分析 源码解析

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
### 回答1: ElasticsearchIK分词器是一种中文分词器,可以将中文文本分成一个个有意义的词语,以便于搜索和分析。它支持细粒度和粗粒度两种分词模式,可以根据不同的需求进行配置IK分词器还支持自定义词典和停用词,可以提高分词的准确性和效率。在Elasticsearch中,IK分词器是非常常用的中文分词器之一。 ### 回答2: Elasticsearch是一个开源的搜索引擎,旨在提供实时搜索和分析功能。作为强大的搜索引擎,Elasticsearch极大的依赖于高效的分词器。而其中IK分词器是目前常见的分词器之一。 IK分词器是一款用于中文分词的工具。它采用了一种基于规则和词库相结合的分词算法。通常情况下,IK分词器的工作流程是:首先,将文本按照信息增益、词频、文本跨度等属性计算得到其初始的分词结果。然后,IK分词器通过对分词结果进行多轮处理,逐渐优化分词结果,以达到更为准确、严谨的分词效果。 此外,IK分词器还具备一些较为强大的功能。例如,支持中文姓名、词语拼音、数字、英文、日文等的分词处理。支持自定义词典、停用词、同义词等配置。支持了多种分词模式,如细粒度分词模式,搜索引擎分词模式和最少分词模式等等。这些功能的不断完善和升级,使IK分词器逐渐成为在中文文本分析领域常用的分词器之一。 总体来说,IK分词器在Elasticsearch中的应用是非常广泛的,它不仅能够提高搜索效果,而且还能加强文本拓展和分析的功能。随着数据量的不断增长和应用场景的不断拓展,对于一款高效、灵活的分词器的需求越来越大。相信IK分词器在未来的应用中,会有更加广泛的空间和应用。 ### 回答3: Elasticsearchik分词器是一种常用的中文全文检索分词器,能够对中文文本进行分词,将整篇文本划分成有意义的词语,并且支持多种分词模式。 该分词器的优点在于,它采用了基于词典和规则的分词算法,对中文分词效果非常好,特别是对于一些细分领域的专业术语等难分难识的词汇,在ik分词器的支持下也能够准确地被识别和分词。另外,ik分词器还支持自定义词典,可以根据应用场景自定义添加词汇,进一步提高分词效果和搜索准确率。 除此之外,ik分词器还支持多种分词模式,包括最细粒度分词模式、普通分词模式、搜索分词模式和面向中文搜索的ik_smart分词模式等,可以根据实际需求进行选择和配置。 总之,ik分词器是Elasticsearch中一个非常实用的中文分词组件,对于中文全文检索和搜索应用具有重要的作用,可以提高搜索效果、加速搜索响应速度,为用户提供更加优质的搜索服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值