概述
把 mysql 的数据迁移到 es 有很多方式,比如直接用 es 官方推荐的 logstash 工具,或者监听 mysql 的 binlog 进行同步,可以结合一些开源的工具比如阿里的 canal。
这里打算详细介绍另一个也是不错的同步方案,这个方案基于 kafka 的连接器。流程可以概括为:
mysql连接器监听数据变更,把变更数据发送到 kafka topic。
ES 监听器监听kafka topic 消费,写入 ES。
Kafka Connect有两个核心概念:Source和Sink。 Source负责导入数据到Kafka,Sink负责从Kafka导出数据,它们都被称为Connector,也就是连接器。在本例中,mysql的连接器是source,es的连接器是sink。
这些连接器本身已经开源,我们之间拿来用即可。不需要再造轮子。
过程详解
准备连接器工具
我下面所有的操作都是在自己的mac上进行的。
首先我们准备两个连接器,分别是 kafka-connect-elasticsearch 和 kafka-connect-elasticsearch, 你可以通过源码编译他们生成jar包,源码地址:
我个人不是很推荐这种源码的编译方式,因为真的好麻烦。除非想研究源码。
我是直接下载 confluent 平台的工具包,里面有编译号的jar包可以直接拿来用,下载地址:
我下载的是 confluent-5.3.1 版本, 相关的jar包在 confluent-5.3.1/share/java 目录下
我们把编译好的或者下载的jar包拷贝到kafka的libs目录下。拷贝的时候要注意,除了 kafka-connect-elasticsearch-5.3.1.jar 和 kafka-connect-jdbc-5.3.1.jar,相关的依赖包也要一起拷贝过来,比如es这个jar包目录下的http相关的,jersey相关的等,否则会报各种 java.lang.NoClassDefFoundError 的错误。
另外mysql-connector-java-5.1.22.jar也要放进去。
数据库和ES环境准备
数据库和es我都是在本地启动的,这个过程具体