用阿里canal 从 mysql同步到 es

暴力小熊

已于 2023-10-17 21:37:54 修改

阅读量540

点赞数

分类专栏： Elasticsearch mysql 文章标签： elasticsearch mysql 搜索引擎

于 2022-05-17 15:10:02 首次发布

本文链接：https://blog.csdn.net/qq_33454058/article/details/124754091

版权

mysql 同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

Elasticsearch

2 篇文章 0 订阅

订阅专栏

最近开发要用到 mysql 数据同步到 es 。在搜索后定位到阿里开源的canal，其主要原理是canal伪装成MySQL的从库，接收binlog信息，再通过解析和映射同步到其他的存储中去。

官方的文档已经比较详尽，整体流程参考QuickStart，Adapter-ES，也在网上搜索搭建步骤但不是很详细，在此仅记录一下自己的具体操作步骤，和在搭建时候遇到可坑。

搭建环境：

ubuntu-20.04.3
mysql-8.0.29
canal-1.1.5
elasticsearch-7.17.3
kibana-7.17.3 或 elasticsearch-head

一、MySQL相关配置

在my.cnf中加入以下配置

[mysqld]
log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=1 # 配置 MySQL replaction 需要定义，不要和 canal 的 slaveId 重复

重启MySQL

service mysql restart

连接到MySQL查看binlog配置生效

show variables like 'binlog_format%';

拥有从库权限的账号，用于订阅binlog，这里创建的账号为canal:canal

mysql> create user canal identified by 'canal';
mysql> grant select, replication slave, replication client on *.* to 'canal'@'%';
mysql> flush privtleges;

二、安装 elasticsearch

下载地址：https://www.elastic.co/cn/downloads/elasticsearch
elasticsearch-7.17.3-linux-x86_64.tar.gz
在这里插入图片描述

在这里插入图片描述
在服务器上解压

tar -zxvf elasticsearch-7.17.3-linux-x86_64.tar.gz

解压后我本来就有 Ubuntu 就在此上弄了
在这里插入图片描述
更改配置文件 /conf/application.yml

network.host: 0.0.0.0
http.port: 9200
path.data: /opt/es/data
path.logs: /opt/es/logs
discovery.seed_hosts: ["host1"]
cluster.initial_master_nodes: ["node-1"]
#---------------------------文件最后添加----跨域支持-------------------------------------------
http.cors.enabled: true
http.cors.allow-origin: "*"

创建用户

useradd es #创建用户
chown es:es -R /opt/es/lasticsearch-7.17.3  #创建所属组
su es  #切换到 es 用户
cd /usr/local/elasticsearch-7.17.3/bin  #进入bin目录
./elasticsearch -d 启动elasticsearch 查看日志是否启动成功
su root #返回 root 用户

三、kibana / elasticsearch-head 二选一即可

1. kibana

下载 https://www.elastic.co/cn/downloads/past-releases/kibana-7-17-3
kibana-7.17.3-linux-x86_64.tar.gz
在服务器上解压

tar -zxvf elasticsearch-7.17.3-linux-x86_64.tar.gz

修改配置文件
账号密码没有启用生产要启用的
conf/kibana.yml

server.port: 5601
server.host: "0.0.0.0"
elasticsearch.hosts: ["http://localhost:9200"]
i18n.locale: "zh-CN"

启动

./bin/kibana   --allow-root &

在这里插入图片描述
执行创建索引 ,此处与后创建的数据库id,name,adderss 字段对应

PUT test
{
  "mappings": {
    
      "properties": {
        "id": {
          "type": "long"
        },
        "name": {
          "type": "text"
        },
        "address": {
          "type": "text"
        }
      }
    
  }
}

GET test/_search  #查询

GET test/_mapping  #查询索引

DELETE test  #删除索引

在这里插入图片描述

2. elasticsearch-head 浏览器插件

下载 https://github.com/mobz/elasticsearch-head
在这里插入图片描述
下载源码后只要插件此插件可能不能直接安装需要修改后缀名.rar 解压后浏览器添加

在这里插入图片描述
也需要执行索引如上kibana

四、canal

下载地址 https://github.com/alibaba/canal/releases/
只需下载此三个
在这里插入图片描述

canal的各个组件的用途各不相同

canal-deploy（canal-server）：可以直接监听MySQL的binlog，把自己伪装成MySQL的从库，只负责接收数据，并不做处理。
canal-adapter：相当于canal的客户端，会从canal-server中获取数据，然后对数据进行同步，可以同步到Redis、Elasticsearch中去。
canal-admin：为canal提供整体配置管理、节点运维等面向运维的功能，提供相对友好的WebUI操作界面，方便更多用户快速和安全的操作。

1. canal.deployer

解压后修改配置连接到自己的MySQL

vim conf/example/instance.properties

找到以下配置并对应更改

#position info，需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306
#username/password，需要改成自己的数据库信息
canal.instance.dbUsername = canal  
canal.instance.dbPassword = canal

启动

 ./bin/startup.sh

2. canal.adapter

解压修改配置 conf/application.yml

server:
  port: 8081
canal.conf:
  srcDataSources: # 源数据库配置
    defaultDS:
      url: jdbc:mysql://127.0.0.1:3306/test?useUnicode=true
      username: canal
      password: canal
canalAdapters: # 适配器列表
  - instance: example # canal实例名或者MQ topic名
    groups: # 分组列表
    - groupId: g1 # 分组id, 如果是MQ模式将用到该值
      outerAdapters:
        name: es7 
        hosts: 127.0.0.1:9200 # ES连接地址
        properties:
          mode: rest # 模式可选transport(9300) 或者 rest(9200)
          # security.auth: test:123456 #  only used for rest mode
          cluster.name: elasticsearch # ES集群名称

添加映射 conf/es7/test.yml
在这里插入图片描述

dataSourceKey: defaultDS
destination: example
groupId: g1
esMapping:
  _index: test
  _id: id
  sql: "select t.id, t.name, t.address from test t"
  etlCondition: "where t.id>0"
  commitBatch: 3000

启动

 ./bin/startup.sh

此处启动后会报错 ClassCastException: com.alibaba.druid.pool.DruidDataSource cannot be cas这个属于canal1.1.5版本自带的bug，解决方式有二

1 ). 下载1.1.5版本源码，将client-adapter目录下escore的pom文件修改一下，然后将es7x打包，将打包好的文件替换adapter的plugins目录中的文件t to com.alibaba.druid.pool.DruidDataSource** ）
加上这个

		<dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>druid</artifactId>
            <scope>provided</scope> 
        </dependency>

2). 下载v1.1.5-alpha-2的adapter，然后复制这个版本的client-adapter.es7x-1.1.5-SNAPSHOT-jar-with-dependencies.jar 放入1.1.5的plugins目录中
（本人是用这个方法解决的）

3. canal.admin

参考： https://blog.csdn.net/weixin_46097842/article/details/125019459

五、测试
创建 test库 test表

CREATE TABLE test (
	`id` BIGINT(20) NOT NULL AUTO_INCREMENT COMMENT '自增ID',
	`name` VARCHAR(10) NOT NULL COMMENT '名称',
	`address` VARCHAR(10) NOT NULL COMMENT '地址',
	PRIMARY KEY (`id`) USING BTREE
)

INSERT INTO `test`(name, address) VALUES ( '北京','北京市朝阳区');

canal-adapter.log如下有打印信息
在这里插入图片描述
执行此

此时可以看到 mysql binlog.log 增量同步数据已经同步了

正常情况要先全量同 mysql 历史数据后再增量

POST ： http://192.168.2.136:8081/etl/es7/test.yml
在这里插入图片描述

暴力小熊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用阿里canal 从 mysql同步到 es

最近开发要用到 mysql 数据同步到 es 。在搜索后定位到阿里开源的canal，其主要原理是canal伪装成MySQL的从库，接收binlog信息，再通过解析和映射同步到其他的存储中去。官方的文档已经比较详尽，整体流程参考QuickStart，Adapter-ES，也在网上搜索搭建步骤但不是很详细，在此仅记录一下自己的具体操作步骤，和在搭建时候遇到可坑。搭建环境：ubuntu-20.04.3mysql-8.0.29canal-1.1.5elasticsearch-7.17.3kiban
复制链接

扫一扫