查看执行运算的设备
//log_device_placement=True用来打印执行每一个节点的相应设备
with tf.Session(config=tf.ConfigProto(log_device_placement=True,allow_soft_placement=True)) as sess:
当一台机器上含有多个GPU时,在默认情况下,Tensorflow只会将运算优先放到/gpu:0设备上。如果需要将某些运算放到不同的GPU上,可以通过device()函数来手工指定。但是不是所有的运算都能放到GPU上,例如在GPU上Variable操作只能接受实数型(float16,float32,double)参数,如果接受整数型会报错。如果运算无法在GPU执行,可以设置allow_soft_placement=True来将代表放到CPU上执行。
with tf.device('/gpu:0'):
···
并行训练的原理
实现深度学习模型的并行化训练可以分为两种不同的方式:
- 数据并行的方式:数据并行是指将一个完整的batch拆分成多个mini-batch数据放在不同的设备上执行训练的过程。每一个设备都会得到一份参数梯度值的计算数据,共享的参数服务器会在一轮训练结束后接受来自每一个设备计算得到的参数梯度值数据,并用这些数据对参数进行更新操作。经由参数服务器更新后的参数会在下一轮的训练开始前传递到各设备。
- 模型并行的方式