TensorFlow在推荐系统中的分布式训练优化实践

美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景中,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。

  • 1 背景
  • 2 大规模训练优化挑战
    • 2.1 业务迭代带来的挑战
    • 2.2 系统负载分析
  • 3 优化实践
    • 3.1 大规模稀疏参数介绍
    • 3.2 分布式负载均衡优化
    • 3.3 通信优化
    • 3.4 延迟优化
    • 3.5 单实例PS并发优化
    • 3.6 单位算力吞吐优化
  • 4 大规模稀疏算法建模
  • 5 总结与展望

1 背景

TensorFlow(下文简称TF)是谷歌推出的一个开源深度学习框架,在美团推荐系统场景中得到了广泛的使用。但TensorFlow官方版本对工业级场景的支持,目前做得并不是特别的完善。美团在大规模生产落地的过程中,遇到了以下几方面的挑战:

  • 所有参数都是用Variable表达, 对于百亿以上的稀疏参数开辟了大量的内存,造成了资源的浪费;
  • 只支持百级别Worker的分布式扩展,对上千Worker的扩展性较差;
  • 由于不支持大规模稀疏参数动态添加、删除,增量导出,导致无法支持Online Learning;
  • 大规模集群运行时,会遇到慢机和宕机;由于框架层不能处理&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋罗世家技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值