es 修改ik和同义词插件源码连接mysql实现字典值同义词热更新

问题描述:

上周运营反馈商城搜索词搜不到 排查发现es ik分词器的ik_smart对搜索词的分词结果不是ik_max_word对索引文档字段值分词结果的子集 即细粒度分词结果不完全包含粗粒度分词结果 代码的全文分词检索又是Operator.And  只能修改ik字典值 公司用的是ik远程字典值  但是没生效(远程拓展字典没生效 远程停用词典生效 很奇怪 也不是编码问题)  原因最后没排查出来  最后用的同义词暂时解决问题  但是公司同义词配置不是热更新  es集群有七台服务器 每个服务器的synonym.txt文件都要修改再重启集群 运维也反馈相当麻烦 所以参考了些资料  最后实现了Ik字典和同义词都能连接mysql不重启的情况下热更新


 

a81965b78c174f5aa2a24ee7f853f240.png

1a7a1e5f73504d51a46c89a8bfb954db.png

46d501b9520941a5a6842322dd51ac4f.png


 可以看到粗粒度ik_smart分词分了个水字 细粒度的ik_max_word却没有分出水字 和其他字黏连了  这细粒度分词也不够细啊 哈哈 此时可以采用ik强字典值 将蜜糖水果酒作为一个整词 也可以同义词蜜糖水果酒指向蜜糖水果(蜜糖水果是可以匹配文档字段的)  当然这不是本文重点 只是发现粗粒度和细粒度对同一词条分词时  前者的分词结果并不一定是后者的子集  下面进入正文

1.修改IK源码连接mysql实现热更新:

    1)首先ik分词配置字典有三种方式 一是读取本地字典 二是加载远程字典  三是连接mysql  前二者都是在ik config目录下的IKAnalyzer.cfg.xml里配置  第二种也能实现不重启es热更新也是官方推荐的但是还是不够方便  原理就是另起监控线程定时读取远程文件服务  根据返回的header的Last-Modified(记录上次修改时间)和Etag 两者有一个变化就全量读取字典词条加载进主词典内存  第三种是把字典值存储mysql中 也是利用监控线程  但是是增量读取   这一点与第二种不同  且修改字典值较为方便 因为只需修改数据库即可  ik源码加载字典主要是Monitor和Dictionary类 initial方法是入口

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict"></entry>
     <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords"></entry>
    <!--用户可以在这里配置远程扩展字典 -->
    <!-- <entry key="remote_ext_dict">words_location</entry> -->
    <!--用户可以在这里配置远程扩展停止词字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

374f94bff6cd42509eb6f9de650fc147.png 

 2)GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

去git上下载ik源码 版本的话选择和es对应的版本 具体可见readme文档 

修改pom文件es版本号和mysql依赖

9f33513f3e7b42268234cc0bb4398b0a.png

ca898ebd02854bfbb13a52c9ba750796.png 

 

 首先建强词典和停用词表 (词条、修改时间等主要字段)

CREATE TABLE `es_extra_main` (
    `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
    `word` varchar(255) CHARACTER SET utf8mb4 NOT NULL COMMENT '词',
    `is_deleted` tinyint(1) NOT NULL DEFAULT '0' COMMENT '是否已删除',
    `update_time` timestamp(6) NOT NULL DEFAULT CURRENT_TIMESTAMP(6) ON UPDATE CURRENT_TIMESTAMP(6) COMMENT '更新时间',
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;


CREATE TABLE `es_extra_stopword` (
    `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
    `word` varchar(255) CHARACTER SET utf8mb4 NOT NULL COMMENT '词',
    `is_deleted` tinyint(1) NOT NULL DEFAULT '0' COMMENT '是否已删除',
    `update_time` timestamp(6) NOT NULL DEFAULT CURRENT_TIMESTAMP(6) ON UPDATE CURRENT_TIMESTAMP(6) COMMENT '更新时间',
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

 

5d5a38ca3c8446e682db4be41b80c988.png 

 3)config报下创建jdbc配置文件用于连接mysql  具体包含数据库连接信息、增量定时读取数据库加载词条的sql以及监控线程定时间隔时间

jdbc.url=jdbc:mysql://192.168.227.131:3307/dianpingdb?useUnicode=true&characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&useSSL=true&serverTimezone=Asia/Shanghai
jdbc.username=root
jdbc.password=root
jdbc.driver=com.mysql.cj.jdbc.Driver
jdbc.update.main.dic.sql=SELECT * FROM `es_extra_main` WHERE update_time > ? order by update_time asc
jdbc.update.stopword.sql=SELECT * FROM `es_extra_stopword` WHERE update_time > ? order by update_time asc
jdbc.update.interval=10

在上述 Dictionary类 initial方法 加载远程字典监控下添加一行   同样起一个监控线程定时读取mysql更新词条

3ea187121206440a939e58af1e61c7c1.png

 

// 建立数据库监控线程
pool.scheduleAtFixedRate(new DatabaseMonitor(),Long.parseLong(getSingleton().getProperty(DatabaseMonitor.JDBC_UPDATE_INTERVAL)), 10, TimeUnit.SECONDS);

在 Dictionary带参构造中加连接mysql的方法以及强词典、停用词典的增删方法

fff1eb84f19e42f793b5b775fcf6c779.png 

 

/**
 * 加载新词条
 */
public static void addWord(String word) {
   singleton._MainDict.fillSegment(word.trim().toLowerCase().toCharArray());
}

/**
 * 移除(屏蔽)词条
 */
public static void disableWord(String word) {
   singleton._MainDict.disableSegment(word.trim().toLowerCase().toCharArray());
}

/**
 * 加载新停用词
 */
public static void addStopword(String word) {
   singleton._StopWords.fillSegment(word.trim().toLowerCase().toCharArray());
}

/**
 * 移除(屏蔽)停用词
 */
public static void disableStopword(String word) {
   singleton._StopWords.disableSegment(word.trim().toLowerCase().toCharArray());
}

/**
 * 加载 jdbc.properties
 */
public void loadJdbcProperties() {
   Path file = PathUtils.get(getDictRoot(), DatabaseMonitor.PATH_JDBC_PROPERTIES);
   try {
      props.load(new FileInputStream(file.toFile()));
      logger.info("====================================加载数据库连接信息 start====================================");
      for (Map.Entry<Object, Object> entry : props.entrySet()) {
         logger.info("{}: {}", entry.getKey(), entry.getValue());
      }
      logger.info("====================================加载数据库连接信息 end====================================");
   } catch (IOException e) {
      logger.error("failed to read file: " + DatabaseMonitor.PATH_JDBC_PROPERTIES, e);
   }
}

 增加DatabaseMonitor类  加载mysql驱动获取连接   以及读取上面jdbc配置的sql语句获取mysql词典数据加载进字典内存

SELECT * FROM `es_extra_main` WHERE update_time > ? order by update_time asc

内存中有个lastUpdateTimeOfMainDic记录数据库最后一个字典值的修改时间  根据这个时间查询sql判断是否有新词添加  如果有就重新赋值给lastUpdateTimeOfMainDic 然后加载字典值

 

 4)打包配置

plugin.xml   打包的文件中能有mysql的驱动jar包

<include>com.mysql:mysql-connector-j</include>

1c8a4ced496c44bb84f341933bcdd118.png

 

在plugin-security.policy加入如下配置 防止报权限错误
permission java.lang.RuntimePermission "setContextClassLoader";

最后maven package打包  到target release下找打压缩包  移动到es plugin目录下ik目录中解压

如果是docker部署es 可以直接放进挂载的数据卷中

docker volume inspect es-plugins 找到你挂载的数据卷目录

0ed00e23871d4d4594d53065214b8e02.png

 最后重启es就可以验证啦  可以通过docker logs -f es看日志

mysql增加词条(注意修改时间字段  根据这个字段增量更新) 然后等个时间(监控程序设置的定时时间)就生效了  可以postman http分词验证

7f8527777272432eb862773428a2a312.png

40f9bcf80fb2424c91dd0cec617a69aa.png 

 2.修改同义词插件源码连接mysql实现热更新:

       1)同样同义词也有是三种方式  读取本地synonym.txt文件(es config目录下)、远程文件热更新(建索引时settings synonyms_path设置http远程文件路劲  具体实现以及原理不赘述拉)以及本文要将的连接mysql 监控线程实现热更新  大致和ik连接mysql热更新有相似之处

       2)同样下载同义词插件源码 下载对应版本

GitHub - bells/elasticsearch-analysis-dynamic-synonym: The dynamic synonym plugin adds a synonym token filter that reloads the synonym file(local file or remote file) at given intervals (default 60s).

 同上修改pom文件  es版本号和mysql依赖

新建config配置目录  新建 jdbc-reload.properties mysql配置信息  包括数据库连接基本信息以及读取mysql同义词的sql

jdbc.url=jdbc:mysql://192.168.227.131:3307/dianpingdb?useUnicode=true&characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&useSSL=true&serverTimezone=Asia/Shanghai
jdbc.user=root
jdbc.password=root
jdbc.reload.synonym.sql=SELECT words FROM sys_synonym_t where is_valid = 1
jdbc.lastModified.synonym.sql=SELECT max(last_modify_dt) as last_modify_dt FROM sys_synonym_t
jdbc.driver=com.mysql.cj.jdbc.Driver

创建表

 

CREATE TABLE `sys_synonym_t` (
  `id` int NOT NULL AUTO_INCREMENT,
  `words` varchar(255) DEFAULT NULL,
  `last_modify_user` varchar(255) DEFAULT NULL,
  `last_modify_dt` datetime DEFAULT NULL,
  `is_valid` int DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=11 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

新建DBRemoteSynonymFile类   这个类主要是连接mysql 加载同义词典

0d6b1c6631f94445a4f04874f5f73c51.png

 

DynamicSynonymTokenFilterFactory类getSynonymFile方法新增读取数据库加载的判断
//数据库动态更新同义词
else if (location.equalsIgnoreCase("fromDB")) {
    synonymFile = new DBRemoteSynonymFile(environment, analyzer, expand, format,
            location);
} 

ffc091781ce241b0aa017c6e34ea5443.png

e6f79985e10342eeb96903a8545aa59c.png 

加载mysql同义词

sql:

jdbc.reload.synonym.sql=SELECT words FROM sys_synonym_t where is_valid = 1
jdbc.lastModified.synonym.sql=SELECT max(last_modify_dt) as last_modify_dt FROM sys_synonym_t

首先判断最后一个词条的修改时间和当前内存保存的lastModified 决定是否有新词条需要加载

fcbd3317fa4c4bb483d3d4af743f3440.png

 

 3)打包

plugin.xml增加:用于生成config目录和mysql驱动jar包

<include>com.mysql:mysql-connector-j</include>
<fileSets>
    <fileSet>
        <directory>${project.basedir}/config</directory>
        <outputDirectory>config</outputDirectory>
    </fileSet>
</fileSets>

权限

同上plugin-security.policy增加

 

permission java.lang.RuntimePermission "setContextClassLoader";
permission java.lang.RuntimePermission "accessDeclaredMembers";
permission java.lang.RuntimePermission "createClassLoader";

还要修改 es config下的jvm.options文件 增加

-Djava.security.policy=/usr/share/elasticsearch/plugins/analyzer-dynamic-synonym/plugin-security.policy  替换成你自己的路劲

61e6e9b6baba4450a10bdc41b2a3cb20.png

最后就Maven打包target release目录下获取打包的压缩文件

到linux es plugin目录下新建同义词目录 把压缩包放进去解压  然后重启es 验证吧

 38f777c0c98844758d09db9599fcf44b.png

 mysql增加词条(修改is_valid last_modify_dt实现增加删除) docker日志查看  postman分词验证

2cf2ca138a8845d1ac512d647f97c8eb.png

b320317fe8944f48abe271e428896a22.png

 417dd8f0dfef4862bde2a5205aff1ab2.png

总结:

1,源码还是很好解读修改的  上面解读的不是很多  还有挺多地方都是可以扩展的

2, gitee上可以自行下载  包含了sql

elasticsearch-analysis-ik: 修改ik分词插件源码连接mysql实现热更新

elasticsearch-analysis-dynamic-synonym: 修改es同义词插件源码连接mysql实现热更新

3,ik分词肯定不是完全智能、能满足各种分词的  所以才有扩展词典来补充   es集群服务器较多的时候热更新可以避免每次修改字典值都要重启

4,注意:修改了字典值  只对新增的文档有效(es倒排索引的分词)  旧数据的倒排索引要更新还是要重建索引的

 

 

 
 

 

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: ElasticsearchIK分词器是一种中文分词器,可以将中文文本分成一个个有意义的词语,以便于搜索和分析。它支持细粒度和粗粒度两种分词模式,可以根据不同的需求进行配置。IK分词器还支持自定义词典和停用词,可以提高分词的准确性和效率。在Elasticsearch中,IK分词器是非常常用的中文分词器之一。 ### 回答2: Elasticsearch是一个开源的搜索引擎,旨在提供实时搜索和分析功能。作为强大的搜索引擎Elasticsearch极大的依赖于高效的分词器。而其中IK分词器是目前常见的分词器之一。 IK分词器是一款用于中文分词的工具。它采用了一种基于规则和词库相结合的分词算法。通常情况下,IK分词器的工作流程是:首先,将文本按照信息增益、词频、文本跨度等属性计算得到其初始的分词结果。然后,IK分词器通过对分词结果进行多轮处理,逐渐优化分词结果,以达到更为准确、严谨的分词效果。 此外,IK分词器还具备一些较为强大的功能。例如,支持中文姓名、词语拼音、数字、英文、日文等的分词处理。支持自定义词典、停用词、同义词等配置。支持了多种分词模式,如细粒度分词模式,搜索引擎分词模式和最少分词模式等等。这些功能的不断完善和升级,使IK分词器逐渐成为在中文文本分析领域常用的分词器之一。 总体来说,IK分词器在Elasticsearch中的应用是非常广泛的,它不仅能够提高搜索效果,而且还能加强文本拓展和分析的功能。随着数据量的不断增长和应用场景的不断拓展,对于一款高效、灵活的分词器的需求越来越大。相信IK分词器在未来的应用中,会有更加广泛的空间和应用。 ### 回答3: Elasticsearchik分词器是一种常用的中文全文检索分词器,能够对中文文本进行分词,将整篇文本划分成有意义的词语,并且支持多种分词模式。 该分词器的优点在于,它采用了基于词典和规则的分词算法,对中文分词效果非常好,特别是对于一些细分领域的专业术语等难分难识的词汇,在ik分词器的支持下也能够准确地被识别和分词。另外,ik分词器还支持自定义词典,可以根据应用场景自定义添加词汇,进一步提高分词效果和搜索准确率。 除此之外,ik分词器还支持多种分词模式,包括最细粒度分词模式、普通分词模式、搜索分词模式和面向中文搜索的ik_smart分词模式等,可以根据实际需求进行选择和配置。 总之,ik分词器是Elasticsearch中一个非常实用的中文分词组件,对于中文全文检索和搜索应用具有重要的作用,可以提高搜索效果、加速搜索响应速度,为用户提供更加优质的搜索服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

精通CRUD的小码农

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值