使用datax迁移数据的一些感想

最新推荐文章于 2024-02-07 22:49:31 发布

hello_alldatabase

最新推荐文章于 2024-02-07 22:49:31 发布

阅读量1.1k

点赞数

分类专栏：数据库迁移 mysql gbase8a

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41561946/article/details/106725008

版权

项目背景：

项目上最近经常从gbase8a往mysql抽取数据业务，抽取过程属于离线操作，遇到记录条数最多的业务表有30多亿条记录，磁盘空间占用最大的表有170GB（3亿多条记录），整个过程都还是比较顺利，遇到的主要问题是数据如何均匀切片问题？下面记录一条迁移的思路与思考

系统环境

gbase8a多节点集群
mysql5.6.46

迁移思路

1、按业务表记录数进行排序操作，小表直接批量迁移。
2、大表按时间字段或rowid来进行切片迁移
迁移思路挺简单的，那有没有问题呢，有一句话讲得好理想状态与现实情况存在差异，这个差异就是问题，有问题就需要我们思考与分析，尽最大努力让迁移的过程如丝般顺滑。

迁移思考

1、判断小表的依据呢？为什么要按记录数进行统计呢，而不加上表size来一起来判断这个表是小表呢
2、大表中只有部分记录的时间字段有值，大部分记录的时间字段没有值，这种情况怎么办呢？
3、通过rowid切片来迁移，rowid是gbase8a自带的列，起值为0，每增加一条记录rowid加1，正常情况下最大的rowid+1就是表的记录数，那么一张表在8a集群中rowid 是怎么分布呢，通过rowid来迁移可行吗，在哪些情况下可行，存在什么问题，是不是对所有表都可以按rowid进行切片迁移？，切片切多大合适，大了会对迁移造成什么影响？
4、遇到最大rowid比表记录异常大，怎么处

最低0.47元/天解锁文章

hello_alldatabase

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。