2-1 数据同步

启航zpyl

已于 2023-05-08 13:38:36 修改

阅读量195

点赞数

分类专栏：中间件文章标签：数据库 mysql java

于 2023-05-08 13:38:06 首次发布

本文链接：https://blog.csdn.net/qq_40983975/article/details/130557100

版权

中间件专栏收录该内容

8 篇文章 0 订阅

订阅专栏

数据同步

一、前言：

数据同步
在一般情况下，如果做查询搜索功能，使用ES做模糊搜索，但是数据是存放在MySQL中的，所以我们需要把MySQL中的数据和ES进行同步，从而保证数据的一致性，当然了要以MySQL中的数据为主。
同步数据的几种方案：

定时任务：比如一分钟同步一次，找到MySQL在过去几分钟内（至少是定时周期的两倍）的发生改变的数据，然后更新到ES中
优点：简单易懂、占用的资源少，不用引入第三方中间件
缺点：有时间差
应用场景：数据短时间内不同步对系统的影响不大、或者数据几乎不发生修改
双写：写入数据的时候，必须也去写ES，更新数据库的时候也需要更新ES，这时候就要考虑数据库事务的问题，建议是先保证MySQL写成功，如果ES写入失败了，可以通过定时任务+日志+告警进行检测和修复（补偿）
用Logstash数据同步管道：一般要配合kafka消息队列+beats采集器
订阅数据库流水的方式来同步：使用canal来同步
优点：实时同步

二、Logstash

2.1 简介

Logstash是一个开源的数据收集引擎，它可以从各种来源收集、处理和转发数据。它支持多种数据源，如文件、数据库、网络等，能够自动解析和转换这些数据，并将其发送到输出目的地，如Elasticsearch、Kafka等。Logstash还有大量的插件，可以扩展其功能，例如文件解析器、时间过滤器、geoip解析器等。Logstash是Elastic Stack中的一部分，可以与Elasticsearch、Kibana等工具协作，帮助用户轻松实现数据的收集、分析和可视化。

Logstash的作用是一个传输和处理数据的管道
参考文档：https://www.elastic.co/guide/en/logstash/7.17/getting-started-with-logstash.html
windows下的下载地址：https://artifacts.elastic.co/downloads/logstash/logstash-7.17.9-windows-x86_64.zip
使用Logstash作为数据同步的管道好处是用起来方便，拥有的插件多，但是也具有成本更大，需要配合其他组件一起使用。

2.2 在windows上的使用

参考文档：https://www.elastic.co/guide/en/logstash/7.17/running-logstash-windows.html

2.2.1 事件

参考文档：https://www.elastic.co/guide/en/logstash/7.17/first-event.html
在这里插入图片描述

demo:

cd logstash-7.17.9
.\bin\logstash.bat -e "input { stdin { } } output { stdout {} }"

udp：

input {
  udp {
    port => 514
    type => "syslog"
  }
}

output {
  stdout { codec => rubydebug }
}

如果配置了config，需要手动运行

.\bin\logstash.bat -f .\config\myTesk.conf

2.2.2 配置数据输入源MySQL

参考文档：https://www.elastic.co/guide/en/logstash/7.17/plugins-inputs-jdbc.html

input {
  jdbc {
    jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
    jdbc_user => "root"
	jdbc_password => "123456"
	statement => "SELECT * from post"
    schedule => "*/5 * * * * *"
  }
}
output {
 stdout {codec => rubydebug}
}

上面的例子是将输入源改成了MySql，输出源是控制台，每5秒执行一次，但是这样存在一个问题，每次执行都是全量拉取，如果数据量太多，同步时间会很长，解决办法就是配置增量

input {
  jdbc {
    jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
    jdbc_user => "root"
    jdbc_password => "123456"
    statement => "SELECT * from post where updateTime >:sql_last_value order by updateTime desc"
    tracking_column => "updatetime"
    tracking_column_type => "timestamp"
    use_column_value => true
    schedule => "*/5 * * * * *"
    jdbc_default_timezone => "Asia/Shanghai"
  }
}
output {
 stdout {codec => rubydebug}
}

这里配置了以updatetime为更新时间，如果需要全量更新，只需要删除logstash-7.17.9\data\plugins\inputs\jdbc文件夹下面的所有文件即可
:sql_last_value的作用是取出上次查询到的数据的最后一行指定的字段
tracking_column：指定sql_last_value的值从哪一列得到
tracking_column_type：指定sql_last_value值的类型

2.2.3 配置数据的输出源ES

参考文档：https://www.elastic.co/guide/en/logstash/7.17/plugins-outputs-elasticsearch.html

output {
 stdout {codec => rubydebug}
 elasticsearch {
   hosts => "192.168.1.30:9200"
   index => "post"
   document_id =>"%{id}"
 }
}

hosts：ES的IP和端口
index：索引库
document_id：ES的id，这里是采用上面数据库提供的ID，使用这种方式来获取"%{id}"

2.2.4 配置数据处理

如果获取到的数据列很多，但是需要查询的数据列只有那么几个，并且还希望重命名，那么可以使用过滤来进行修改。
参考文档：https://www.elastic.co/guide/en/logstash/7.17/plugins-filters-mutate.html

filter {
    mutate {
       rename => {
          "updatetime" => "updateTime"
          "userid" => "userId"
          "createtime" =>"createTime"
          "isdelete" => "isDelete"
       }
       remove_field => ['thumbnum','favournum']
    }
}

rename：重命名
remove_field：移除的列

三、canal

参考文档：https://github.com/alibaba/canal/

3.1 简介

基于MySQL数据库增量日志解析，提供增量数据订阅和消费

3.2 工作原理

3.2.1 MySQL主备复制原理

在这里插入图片描述

MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events，可以通过 show binlog events 进行查看)
MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)
MySQL slave 重放 relay log 中事件，将数据变更反映到它自己的数据库

3.2.2 canal工作原理

伪装成MySQL的从节点，获取主节点的binlog
在这里插入图片描述

canal模拟MySQL slave 的交互协议，伪装自己为 MySQL slave ，向MySQL master 发送dump协议
MySQL master 收到 dump 请求，开始推送 binary log 给 slave (即 canal )
canal 解析binary log对象

3.3 使用

参考文档：https://github.com/alibaba/canal/wiki/QuickStart

修改MySQL的配置文件，需要开启binlog日志

[mysqld]
log-bin=mysql-bin # 开启 binlog  
binlog-format=ROW # 选择 ROW 模式  
server_id=1 # 配置 MySQL replaction 需要定义，不要和 canal 的 slaveId 重复

修改canal的配置文件
在此文件夹下\canal.deployer-1.1.6\conf\example修改instance.properties文件

# 修改以下几项
#position info，需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306
#username/password，需要改成自己的数据库信息
canal.instance.dbUsername = canal  
canal.instance.dbPassword = canal

启动

.\bin\startup.bat

配置canal java客户端
参考文档：https://github.com/alibaba/canal/wiki/ClientExample
4.1 引入依赖

<dependency>
    <groupId>com.alibaba.otter</groupId>
    <artifactId>canal.client</artifactId>
    <version>1.1.0</version>
</dependency>

4.2 ClientSample代码

package com.yupi.springbootinit;  
  
import java.net.InetSocketAddress;  
import java.util.List;  
  
  
import com.alibaba.otter.canal.client.CanalConnectors;  
import com.alibaba.otter.canal.client.CanalConnector;  
import com.alibaba.otter.canal.common.utils.AddressUtils;  
import com.alibaba.otter.canal.protocol.Message;  
import com.alibaba.otter.canal.protocol.CanalEntry.Column;  
import com.alibaba.otter.canal.protocol.CanalEntry.Entry;  
import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;  
import com.alibaba.otter.canal.protocol.CanalEntry.EventType;  
import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;  
import com.alibaba.otter.canal.protocol.CanalEntry.RowData;  
  
  
public class SimpleCanalClientExample {  
  
  
public static void main(String args[]) {  
	// 创建链接  
	CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress(AddressUtils.getHostIp(),  
	11111), "example", "", "");  
	int batchSize = 1000;  
	int emptyCount = 0;  
	try {  
		connector.connect();  
		connector.subscribe(".*\\..*");  
		connector.rollback();  
		int totalEmptyCount = 120;  
		while (emptyCount < totalEmptyCount) {  
			Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据  
			long batchId = message.getId();  
			int size = message.getEntries().size();  
			if (batchId == -1 || size == 0) {  
				emptyCount++;  
				System.out.println("empty count : " + emptyCount);  
				try {  
					Thread.sleep(1000);  
				} catch (InterruptedException e) {  
				}  
			} else {  
				emptyCount = 0;  
				// System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);  
				printEntry(message.getEntries());  
			}  
			connector.ack(batchId); // 提交确认  
			// connector.rollback(batchId); // 处理失败, 回滚数据  
		}  
	  
		System.out.println("empty too many times, exit");  
	} finally {  
		connector.disconnect();  
	}  
}  
  
private static void printEntry(List<Entry> entrys) {  
	for (Entry entry : entrys) {  
		if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {  
			continue;  
		}  
  
		RowChange rowChage = null;  
		try {  
			rowChage = RowChange.parseFrom(entry.getStoreValue());  
		} catch (Exception e) {  
			throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(),e);  
		}  
  
		EventType eventType = rowChage.getEventType();  
		System.out.println(String.format("================&gt; binlog[%s:%s] , name[%s,%s] , eventType : %s",  
		entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),  
		entry.getHeader().getSchemaName(), entry.getHeader().getTableName(), eventType));  
	  
		for (RowData rowData : rowChage.getRowDatasList()) {  
			if (eventType == EventType.DELETE) {  
				printColumn(rowData.getBeforeColumnsList());  
			} else if (eventType == EventType.INSERT) {  
				printColumn(rowData.getAfterColumnsList());  
			} else {  
				System.out.println("-------&gt; before");  
				printColumn(rowData.getBeforeColumnsList());  
				System.out.println("-------&gt; after");  
				printColumn(rowData.getAfterColumnsList());  
			}  
		}  
	}  
}  
  
private static void printColumn(List<Column> columns) {  
	for (Column column : columns) {  
		System.out.println(column.getName() + " : " + column.getValue() + " update=" + column.getUpdated());  
		}  
	}   
}