面向异构分布式机器学习的动态自适应并行加速方法

摘要: 分布式机器学习因其优越的并行能力成为人工智能领域复杂模型训练的常用技术。然而,GPU升级换代非常快,异构集群环境下的分布式机器学习成为数据中心、研究机构面临的新常态。异构节点之间训练速度的差异使得现有并行方法难以平衡同步等待和陈旧梯度的影响,从而显著降低模型整体训练效率。针对该问题,提出了一种基于节点状态的动态自适应并行方法(dynamic adaptive synchronous parallel, DASP),利用参数服务器动态管理节点训练时的状态信息并对节点的并行状态进行划分,通过节点状态信息自适应调整每个节点的并行状态,以减少快速节点对全局模型参数的同步等待时间与陈旧梯度的产生,从而加快收敛效率。在公开数据集上的实验结果表明,DASP比主流方法收敛时间减少了16.9%~82.1%,并且训练过程更加稳定。

  • 关键词: 
  • 异构集群  /  
  • 机器学习  /  
  • 数据并行  /  
  • 分布式训练  /  
  • 参数服务器  /  
  • 落后者  /  
  • 陈旧梯度  /  
  • 大规模深度学习  

近年来机器学习(machine learning, ML)广泛应用到了各种领域,在图像分类[1]、目标检测[2-3]、语义分析[4]等领域取得了显著的效果。然而,随着训练数据量的增加和模型复杂度的提升,在单台机器上训练ML模型变得非常困难。因此,为了提高训练速度,将训练任务部署在多个计算节点进行并行处理是常用的技术手段[5]。学术界和工业界对许多分布式ML系统进行了深入研究,例如 PyTorch[6]、TensorFlow[7]。大多数现有系统利用数据并行模式将分布式机器学习任务部署在由高性能计算节点组建的集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值