1.2亿数据的表结构修改

背景 :

tbl_order_detail 表目前存储1.2亿条数据,表中共56个字段。 字段pay_id采用tinyint数据结构,(带符号-128-127,无符号0-255)。随着业务的扩展,pay_id的字段需要扩充,修改为smallInt类型。

技术方案:

1. 新建tbl_order_detail_a表,与tbl_order_detail保持同样的数据结构(pay_id修改为smallInt类型)

2. 数据迁移,将tbl_order_tail中的数据迁移到tbl_order_detail_a表中

3. 后台线程跟踪binlog中tbl_order_detail表中数据的变更,并update到tbl_order_detail_a表中

4. 操作完成后, rename表名字,更改为tbl_order_tail为tbl_order_tail_b, tbl_order_detail_a更改为tbl_order_detail

注: 因数据量较大,步骤2&3 耗时约8个小时

技术故障:

1. 上午9点开始操作后,监控频繁报警。经追查,DB主从延迟,导致部分读操作无法读取新生成的订单。主要原因: 表数据迁移涉及到大量的insert操作,引发大量的主从复制,导致主从延迟超过1s,部分时间敏感的业务因查询不到订单数据而报错。(改为读主库?)

2. 考虑到白天业务调用频繁,改为晚上10点后执行操作,因夜间业务调用量减少,主从延迟导致的业务问题不存在了。但在执行上述第4步时,无法rename表tbl_order_detail为tbl_order_detail_b。 查找原因,重命名表时,需要获取表元数据锁(rename的内部执行逻辑),重试多次都无法获取元数据锁直接异常退出,操作失败。 为什么获取不到元数据锁? 当表正在执行事务或查询数据时,无法获取到元数据锁,即sql执行期间,无法获取。所以rename时,mysql会重复多次,当某次成功时,则锁表重命名。当超过阈值时,则直接失败。 sql执行非常频繁会导致无法获取元数据锁,但凌晨5点多,业务调用量很低,不可能频繁到多次重试都拿不到元数据锁。 后来通过sql监控发现,在凌晨有一个定时任务在查询表数据,使用一个复杂sql,此sql执行时间接近50s,且定时任务重叠执行,即此sql永远在执行。导致永远无法获取到元数据锁,而无法重命名表。 DBA强制kill此条SQL,rename表成功。

经验教训:

1. 大规模的数据复制可能会引起主从延迟,风险需要规避

2. rename表名时,需要获取元数据锁。但大事务或者慢查询,可能会导致多次无法获取元数据锁,而rename失败。 所以需要及时清除慢查询和大事务。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值