tensorflow多机/多GPU训练时使用的术语

Concepts

  • replica: 使用多机训练时, 一台机器对应一个replica——复本
  • tower:使用多GPU训练时, 一个GPU上对应一个tower。
  • clone: 由于tensorflow里多GPU训练一般是每个GPU上都有完整的模型,各自forward,得到的梯度交给CPU平均然后统一backward,每个GPU上的模型也叫做一个clone。所以clone与tower指的是同一个东西。
  • parameter server: 多机训练时计算梯度平均值并执行backward操作的参数服务器,功能类比于单机多GPU(也叫单机多卡)时的CPU。(未考证, TODO)
  • worker server:功能类比于单机多卡中的GPU。(未考证, TODO)

References

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值