Concepts
- replica: 使用多机训练时, 一台机器对应一个replica——复本
- tower:使用多GPU训练时, 一个GPU上对应一个tower。
- clone: 由于tensorflow里多GPU训练一般是每个GPU上都有完整的模型,各自forward,得到的梯度交给CPU平均然后统一backward,每个GPU上的模型也叫做一个clone。所以clone与tower指的是同一个东西。
- parameter server: 多机训练时计算梯度平均值并执行backward操作的参数服务器,功能类比于单机多GPU(也叫单机多卡)时的CPU。(未考证, TODO)
- worker server:功能类比于单机多卡中的GPU。(未考证, TODO)