mysql 批量更新 避免死锁_Spark批量更新数据库导致死锁

2ff34e647e2e3cdfd8dca593e17d9b0a.png

今天同事的实时分析脚本遇到一个问题,mysql数据库写入失败。其实功能很简单,从数据流读取用户登录数据,更新用户的最近一次登录时间。这个脚本在项目冷启动阶段运行正常,但数据量增长之后不时更新失败。

查了脚本之后发现问题在于,这个脚本在RDD的foreachPartition里面用事务batch更新mysql,而在事务没有commit之前,该链接是对整个索引范围的表有排他锁的。这导致不同executor并行更新的时候会出现锁表的情况。这个问题之前由于batch比较小,冲突几率较低,测试期间一直没有暴露出来,现在线上突然出问题真是惊出一身冷汗(⊙v⊙)!。最后的解决方式是,partition中的所有更新操作先记录下来,汇总到driver节点再一并更新。这样虽然增加了网络传输和并行计算的能力,但为了安全性还是值得的。

其实这个问题很典型,是由于全局资源和局部操作的不一致导致的。换句话说,partition只是全局计算的一部分,但却有更新整个表的权限,必然会导致冲突。MapReduce的基本思想就是将数据切分成多份,(在一个阶段内)每份相互没有依赖,所以才可以并行计算。如果有全局的操作,应该在Reduce之后再进行。虽然现在对于数据分析师来说MapReduce已经基本不需要直接写了,但它的思想是分布式的基础,理解透彻还是大有裨益的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值