数据同步
一、前言:
数据同步
在一般情况下,如果做查询搜索功能,使用ES做模糊搜索,但是数据是存放在MySQL中的,所以我们需要把MySQL中的数据和ES进行同步,从而保证数据的一致性,当然了要以MySQL中的数据为主。
同步数据的几种方案:
- 定时任务:比如一分钟同步一次,找到MySQL在过去几分钟内(至少是定时周期的两倍)的发生改变的数据,然后更新到ES中
优点:简单易懂、占用的资源少,不用引入第三方中间件
缺点:有时间差
应用场景:数据短时间内不同步对系统的影响不大、或者数据几乎不发生修改 - 双写:写入数据的时候,必须也去写ES,更新数据库的时候也需要更新ES,这时候就要考虑数据库事务的问题,建议是先保证MySQL写成功,如果ES写入失败了,可以通过定时任务+日志+告警进行检测和修复(补偿)
- 用Logstash数据同步管道:一般要配合kafka消息队列+beats采集器
- 订阅数据库流水的方式来同步:使用canal来同步
优点:实时同步
二、Logstash
2.1 简介
Logstash是一个开源的数据收集引擎,它可以从各种来源收集、处理和转发数据。它支持多种数据源,如文件、数据库、网络等,能够自动解析和转换这些数据,并将其发送到输出目的地,如Elasticsearch、Kafka等。Logstash还有大量的插件,可以扩展其功能,例如文件解析器、时间过滤器、geoip解析器等。Logstash是Elastic Stack中的一部分,可以与Elasticsearch、Kibana等工具协作,帮助用户轻松实现数据的收集、分析和可视化。
Logstash的作用是一个传输和处理数据的管道
参考文档:https://www.elastic.co/guide/en/logstash/7.17/getting-started-with-logstash.html
windows下的下载地址:https://artifacts.elastic.co/downloads/logstash/logstash-7.17.9-windows-x86_64.zip
使用Logstash作为数据同步的管道好处是用起来方便,拥有的插件多,但是也具有成本更大,需要配合其他组件一起使用。
2.2 在windows上的使用
参考文档:https://www.elastic.co/guide/en/logstash/7.17/running-logstash-windows.html
2.2.1 事件
参考文档:https://www.elastic.co/guide/en/logstash/7.17/first-event.html
demo:
cd logstash-7.17.9
.\bin\logstash.bat -e "input { stdin { } } output { stdout {} }"
udp:
input {
udp {
port => 514
type => "syslog"
}
}
output {
stdout { codec => rubydebug }
}
如果配置了config,需要手动运行
.\bin\logstash.bat -f .\config\myTesk.conf
2.2.2 配置数据输入源MySQL
参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-inputs-jdbc.html
input {
jdbc {
jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
jdbc_user => "root"
jdbc_password => "123456"
statement => "SELECT * from post"
schedule => "*/5 * * * * *"
}
}
output {
stdout {codec => rubydebug}
}
上面的例子是将输入源改成了MySql,输出源是控制台,每5秒执行一次,但是这样存在一个问题,每次执行都是全量拉取,如果数据量太多,同步时间会很长,解决办法就是配置增量
input {
jdbc {
jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
jdbc_user => "root"
jdbc_password => "123456"
statement => "SELECT * from post where updateTime >:sql_last_value order by updateTime desc"
tracking_column => "updatetime"
tracking_column_type => "timestamp"
use_column_value => true
schedule => "*/5 * * * * *"
jdbc_default_timezone => "Asia/Shanghai"
}
}
output {
stdout {codec => rubydebug}
}
这里配置了以updatetime为更新时间,如果需要全量更新,只需要删除logstash-7.17.9\data\plugins\inputs\jdbc文件夹下面的所有文件即可
:sql_last_value的作用是取出上次查询到的数据的最后一行指定的字段
tracking_column:指定sql_last_value的值从哪一列得到
tracking_column_type:指定sql_last_value值的类型
2.2.3 配置数据的输出源ES
参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-outputs-elasticsearch.html
output {
stdout {codec => rubydebug}
elasticsearch {
hosts => "192.168.1.30:9200"
index => "post"
document_id =>"%{id}"
}
}
hosts:ES的IP和端口
index:索引库
document_id:ES的id,这里是采用上面数据库提供的ID,使用这种方式来获取"%{id}"
2.2.4 配置数据处理
如果获取到的数据列很多,但是需要查询的数据列只有那么几个,并且还希望重命名,那么可以使用过滤来进行修改。
参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-filters-mutate.html
filter {
mutate {
rename => {
"updatetime" => "updateTime"
"userid" => "userId"
"createtime" =>"createTime"
"isdelete" => "isDelete"
}
remove_field => ['thumbnum','favournum']
}
}
rename:重命名
remove_field:移除的列
三、canal
参考文档:https://github.com/alibaba/canal/
3.1 简介
基于MySQL数据库增量日志解析,提供增量数据订阅和消费
3.2 工作原理
3.2.1 MySQL主备复制原理
- MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events,可以通过 show binlog events 进行查看)
- MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)
- MySQL slave 重放 relay log 中事件,将数据变更反映到它自己的数据库
3.2.2 canal工作原理
伪装成MySQL的从节点,获取主节点的binlog
- canal模拟MySQL slave 的交互协议,伪装自己为 MySQL slave ,向MySQL master 发送dump协议
- MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )
- canal 解析binary log对象
3.3 使用
参考文档:https://github.com/alibaba/canal/wiki/QuickStart
- 修改MySQL的配置文件,需要开启binlog日志
[mysqld]
log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复
- 修改canal的配置文件
在此文件夹下\canal.deployer-1.1.6\conf\example修改instance.properties文件
# 修改以下几项
#position info,需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306
#username/password,需要改成自己的数据库信息
canal.instance.dbUsername = canal
canal.instance.dbPassword = canal
- 启动
.\bin\startup.bat
- 配置canal java客户端
参考文档:https://github.com/alibaba/canal/wiki/ClientExample
4.1 引入依赖
<dependency>
<groupId>com.alibaba.otter</groupId>
<artifactId>canal.client</artifactId>
<version>1.1.0</version>
</dependency>
4.2 ClientSample代码
package com.yupi.springbootinit;
import java.net.InetSocketAddress;
import java.util.List;
import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.common.utils.AddressUtils;
import com.alibaba.otter.canal.protocol.Message;
import com.alibaba.otter.canal.protocol.CanalEntry.Column;
import com.alibaba.otter.canal.protocol.CanalEntry.Entry;
import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;
import com.alibaba.otter.canal.protocol.CanalEntry.EventType;
import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;
import com.alibaba.otter.canal.protocol.CanalEntry.RowData;
public class SimpleCanalClientExample {
public static void main(String args[]) {
// 创建链接
CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress(AddressUtils.getHostIp(),
11111), "example", "", "");
int batchSize = 1000;
int emptyCount = 0;
try {
connector.connect();
connector.subscribe(".*\\..*");
connector.rollback();
int totalEmptyCount = 120;
while (emptyCount < totalEmptyCount) {
Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
long batchId = message.getId();
int size = message.getEntries().size();
if (batchId == -1 || size == 0) {
emptyCount++;
System.out.println("empty count : " + emptyCount);
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
}
} else {
emptyCount = 0;
// System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);
printEntry(message.getEntries());
}
connector.ack(batchId); // 提交确认
// connector.rollback(batchId); // 处理失败, 回滚数据
}
System.out.println("empty too many times, exit");
} finally {
connector.disconnect();
}
}
private static void printEntry(List<Entry> entrys) {
for (Entry entry : entrys) {
if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {
continue;
}
RowChange rowChage = null;
try {
rowChage = RowChange.parseFrom(entry.getStoreValue());
} catch (Exception e) {
throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(),e);
}
EventType eventType = rowChage.getEventType();
System.out.println(String.format("================> binlog[%s:%s] , name[%s,%s] , eventType : %s",
entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),
entry.getHeader().getSchemaName(), entry.getHeader().getTableName(), eventType));
for (RowData rowData : rowChage.getRowDatasList()) {
if (eventType == EventType.DELETE) {
printColumn(rowData.getBeforeColumnsList());
} else if (eventType == EventType.INSERT) {
printColumn(rowData.getAfterColumnsList());
} else {
System.out.println("-------> before");
printColumn(rowData.getBeforeColumnsList());
System.out.println("-------> after");
printColumn(rowData.getAfterColumnsList());
}
}
}
}
private static void printColumn(List<Column> columns) {
for (Column column : columns) {
System.out.println(column.getName() + " : " + column.getValue() + " update=" + column.getUpdated());
}
}
}