2-1 数据同步

数据同步

一、前言:

数据同步
在一般情况下,如果做查询搜索功能,使用ES做模糊搜索,但是数据是存放在MySQL中的,所以我们需要把MySQL中的数据和ES进行同步,从而保证数据的一致性,当然了要以MySQL中的数据为主。
同步数据的几种方案:

  1. 定时任务:比如一分钟同步一次,找到MySQL在过去几分钟内(至少是定时周期的两倍)的发生改变的数据,然后更新到ES中
    优点:简单易懂、占用的资源少,不用引入第三方中间件
    缺点:有时间差
    应用场景:数据短时间内不同步对系统的影响不大、或者数据几乎不发生修改
  2. 双写:写入数据的时候,必须也去写ES,更新数据库的时候也需要更新ES,这时候就要考虑数据库事务的问题,建议是先保证MySQL写成功,如果ES写入失败了,可以通过定时任务+日志+告警进行检测和修复(补偿)
  3. 用Logstash数据同步管道:一般要配合kafka消息队列+beats采集器
  4. 订阅数据库流水的方式来同步:使用canal来同步
    优点:实时同步

二、Logstash

2.1 简介

Logstash是一个开源的数据收集引擎,它可以从各种来源收集、处理和转发数据。它支持多种数据源,如文件、数据库、网络等,能够自动解析和转换这些数据,并将其发送到输出目的地,如Elasticsearch、Kafka等。Logstash还有大量的插件,可以扩展其功能,例如文件解析器、时间过滤器、geoip解析器等。Logstash是Elastic Stack中的一部分,可以与Elasticsearch、Kibana等工具协作,帮助用户轻松实现数据的收集、分析和可视化。

Logstash的作用是一个传输和处理数据的管道
参考文档:https://www.elastic.co/guide/en/logstash/7.17/getting-started-with-logstash.html
windows下的下载地址:https://artifacts.elastic.co/downloads/logstash/logstash-7.17.9-windows-x86_64.zip
使用Logstash作为数据同步的管道好处是用起来方便,拥有的插件多,但是也具有成本更大,需要配合其他组件一起使用。

2.2 在windows上的使用

参考文档:https://www.elastic.co/guide/en/logstash/7.17/running-logstash-windows.html

2.2.1 事件

参考文档:https://www.elastic.co/guide/en/logstash/7.17/first-event.html
在这里插入图片描述

demo:

cd logstash-7.17.9
.\bin\logstash.bat -e "input { stdin { } } output { stdout {} }"

udp:

input {
  udp {
    port => 514
    type => "syslog"
  }
}

output {
  stdout { codec => rubydebug }
}

如果配置了config,需要手动运行

.\bin\logstash.bat -f .\config\myTesk.conf

2.2.2 配置数据输入源MySQL

参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-inputs-jdbc.html

input {
  jdbc {
    jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
    jdbc_user => "root"
	jdbc_password => "123456"
	statement => "SELECT * from post"
    schedule => "*/5 * * * * *"
  }
}
output {
 stdout {codec => rubydebug}
}

上面的例子是将输入源改成了MySql,输出源是控制台,每5秒执行一次,但是这样存在一个问题,每次执行都是全量拉取,如果数据量太多,同步时间会很长,解决办法就是配置增量

input {
  jdbc {
    jdbc_driver_library => "D:\java\logstash-7.17.9-windows-x86_64\logstash-7.17.9\config\mysql-connector-java-8.0.28.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://192.168.1.30:3306/my_db"
    jdbc_user => "root"
    jdbc_password => "123456"
    statement => "SELECT * from post where updateTime >:sql_last_value order by updateTime desc"
    tracking_column => "updatetime"
    tracking_column_type => "timestamp"
    use_column_value => true
    schedule => "*/5 * * * * *"
    jdbc_default_timezone => "Asia/Shanghai"
  }
}
output {
 stdout {codec => rubydebug}
}

这里配置了以updatetime为更新时间,如果需要全量更新,只需要删除logstash-7.17.9\data\plugins\inputs\jdbc文件夹下面的所有文件即可
:sql_last_value的作用是取出上次查询到的数据的最后一行指定的字段
tracking_column:指定sql_last_value的值从哪一列得到
tracking_column_type:指定sql_last_value值的类型

2.2.3 配置数据的输出源ES

参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-outputs-elasticsearch.html

output {
 stdout {codec => rubydebug}
 elasticsearch {
   hosts => "192.168.1.30:9200"
   index => "post"
   document_id =>"%{id}"
 }
}

hosts:ES的IP和端口
index:索引库
document_id:ES的id,这里是采用上面数据库提供的ID,使用这种方式来获取"%{id}"

2.2.4 配置数据处理

如果获取到的数据列很多,但是需要查询的数据列只有那么几个,并且还希望重命名,那么可以使用过滤来进行修改。
参考文档:https://www.elastic.co/guide/en/logstash/7.17/plugins-filters-mutate.html

filter {
    mutate {
       rename => {
          "updatetime" => "updateTime"
          "userid" => "userId"
          "createtime" =>"createTime"
          "isdelete" => "isDelete"
       }
       remove_field => ['thumbnum','favournum']
    }
}

rename:重命名
remove_field:移除的列

三、canal

参考文档:https://github.com/alibaba/canal/

3.1 简介

基于MySQL数据库增量日志解析,提供增量数据订阅和消费

3.2 工作原理

3.2.1 MySQL主备复制原理

在这里插入图片描述

  • MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events,可以通过 show binlog events 进行查看)
  • MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)
  • MySQL slave 重放 relay log 中事件,将数据变更反映到它自己的数据库

3.2.2 canal工作原理

伪装成MySQL的从节点,获取主节点的binlog
在这里插入图片描述

  • canal模拟MySQL slave 的交互协议,伪装自己为 MySQL slave ,向MySQL master 发送dump协议
  • MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )
  • canal 解析binary log对象

3.3 使用

参考文档:https://github.com/alibaba/canal/wiki/QuickStart

  1. 修改MySQL的配置文件,需要开启binlog日志
[mysqld]
log-bin=mysql-bin # 开启 binlog  
binlog-format=ROW # 选择 ROW 模式  
server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复
  1. 修改canal的配置文件
    在此文件夹下\canal.deployer-1.1.6\conf\example修改instance.properties文件
# 修改以下几项
#position info,需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306
#username/password,需要改成自己的数据库信息
canal.instance.dbUsername = canal  
canal.instance.dbPassword = canal
  1. 启动
.\bin\startup.bat
  1. 配置canal java客户端
    参考文档:https://github.com/alibaba/canal/wiki/ClientExample
    4.1 引入依赖
<dependency>
    <groupId>com.alibaba.otter</groupId>
    <artifactId>canal.client</artifactId>
    <version>1.1.0</version>
</dependency>

4.2 ClientSample代码

package com.yupi.springbootinit;  
  
import java.net.InetSocketAddress;  
import java.util.List;  
  
  
import com.alibaba.otter.canal.client.CanalConnectors;  
import com.alibaba.otter.canal.client.CanalConnector;  
import com.alibaba.otter.canal.common.utils.AddressUtils;  
import com.alibaba.otter.canal.protocol.Message;  
import com.alibaba.otter.canal.protocol.CanalEntry.Column;  
import com.alibaba.otter.canal.protocol.CanalEntry.Entry;  
import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;  
import com.alibaba.otter.canal.protocol.CanalEntry.EventType;  
import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;  
import com.alibaba.otter.canal.protocol.CanalEntry.RowData;  
  
  
public class SimpleCanalClientExample {  
  
  
public static void main(String args[]) {  
	// 创建链接  
	CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress(AddressUtils.getHostIp(),  
	11111), "example", "", "");  
	int batchSize = 1000;  
	int emptyCount = 0;  
	try {  
		connector.connect();  
		connector.subscribe(".*\\..*");  
		connector.rollback();  
		int totalEmptyCount = 120;  
		while (emptyCount < totalEmptyCount) {  
			Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据  
			long batchId = message.getId();  
			int size = message.getEntries().size();  
			if (batchId == -1 || size == 0) {  
				emptyCount++;  
				System.out.println("empty count : " + emptyCount);  
				try {  
					Thread.sleep(1000);  
				} catch (InterruptedException e) {  
				}  
			} else {  
				emptyCount = 0;  
				// System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);  
				printEntry(message.getEntries());  
			}  
			connector.ack(batchId); // 提交确认  
			// connector.rollback(batchId); // 处理失败, 回滚数据  
		}  
	  
		System.out.println("empty too many times, exit");  
	} finally {  
		connector.disconnect();  
	}  
}  
  
private static void printEntry(List<Entry> entrys) {  
	for (Entry entry : entrys) {  
		if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {  
			continue;  
		}  
  
		RowChange rowChage = null;  
		try {  
			rowChage = RowChange.parseFrom(entry.getStoreValue());  
		} catch (Exception e) {  
			throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(),e);  
		}  
  
		EventType eventType = rowChage.getEventType();  
		System.out.println(String.format("================&gt; binlog[%s:%s] , name[%s,%s] , eventType : %s",  
		entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),  
		entry.getHeader().getSchemaName(), entry.getHeader().getTableName(), eventType));  
	  
		for (RowData rowData : rowChage.getRowDatasList()) {  
			if (eventType == EventType.DELETE) {  
				printColumn(rowData.getBeforeColumnsList());  
			} else if (eventType == EventType.INSERT) {  
				printColumn(rowData.getAfterColumnsList());  
			} else {  
				System.out.println("-------&gt; before");  
				printColumn(rowData.getBeforeColumnsList());  
				System.out.println("-------&gt; after");  
				printColumn(rowData.getAfterColumnsList());  
			}  
		}  
	}  
}  
  
private static void printColumn(List<Column> columns) {  
	for (Column column : columns) {  
		System.out.println(column.getName() + " : " + column.getValue() + " update=" + column.getUpdated());  
		}  
	}   
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

启航zpyl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值