项目背景
前期已经写过几篇用datax实现异构数据迁移的文章,面对复杂的上游数据,无法用一种通用的方式来实现所有业务表的迁移,比如一个大业务表中rowid字段与表记录差异特别大(一个表有3亿条记录,里面的最大rowid为30亿),这种情况下通过rowid切片也能实现迁移,但切片后的数据分布不均匀,这时基于时间字段来迁移则要顺利得多。
系统环境
gbase8a 16节点集群
mysql5.6.46主从
迁移策略
迁移数据有几种方式,需要根据实际的情况来决定采用哪一钟,面对复杂的业务数据,很难有标准的方式来实现所有业务数据的迁移,现把我遇到的迁移策略整理如下:
1、对于小表(百万级)进行批量迁移
2、大表无时间字段(千万以及亿级),通过rowid字段切片
3、大表有时间字段,但rowid比表记录大几倍甚至几十倍的情况 ,基于时间字段切片迁移
通过几上三种方式组合,完美的解决了目前项目遇到的数据迁移问题
实现脚本
datax配置文件
{
"job": {
"setting": {
"speed": {
"byte": 1048576
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "$source_reader",
"parameter": {
"username": "$source_db_user",
"password": "$source_db_pwd",
"connection": [
{
"querySql": [
"select * from $source_table_name where $date_