使用datax迁移数据的一些感想

项目背景:

项目上最近经常从gbase8a往mysql抽取数据业务,抽取过程属于离线操作,遇到记录条数最多的业务表有30多亿条记录,磁盘空间占用最大的表有170GB(3亿多条记录),整个过程都还是比较顺利,遇到的主要问题是数据如何均匀切片问题?下面记录一条迁移的思路与思考

系统环境

gbase8a多节点集群
mysql5.6.46

迁移思路

1、按业务表记录数进行排序操作,小表直接批量迁移。
2、大表按时间字段或rowid来进行切片迁移
迁移思路挺简单的,那有没有问题呢,有一句话讲得好理想状态与现实情况存在差异,这个差异就是问题,有问题就需要我们思考与分析,尽最大努力让迁移的过程如丝般顺滑。

迁移思考

1、判断小表的依据呢?为什么要按记录数进行统计呢,而不加上表size来一起来判断这个表是小表呢
2、大表中只有部分记录的时间字段有值,大部分记录的时间字段没有值,这种情况怎么办呢?
3、通过rowid切片来迁移,rowid是gbase8a自带的列,起值为0,每增加一条记录rowid加1,正常情况下最大的rowid+1就是表的记录数,那么一张表在8a集群中rowid 是怎么分布呢,通过rowid来迁移可行吗,在哪些情况下可行,存在什么问题,是不是对所有表都可以按rowid进行切片迁移?,切片切多大合适,大了会对迁移造成什么影响?
4、遇到最大rowid比表记录异常大,怎么处

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值