其中的并行思想有两部分:
1. 通过model parallel实现多个machine训练单个模型
2.通过复制 1 中训练的单个模型, 异步训练不同的数据集(data parallel)
详解上面两种思想的实现:
1.model parallel:将整个神经网络的的神经元划分到不同的机器上,只有处于机器边际的节点间才通过通信交换数据。
2.data parallel: 复制上图中构建的model,将数据集分成几小块,分别在这些model中训练。这里讲涉及到model parameters的共享问题。这里只记录了Downpour SGD算法。
如上图:model的参数都存放在parameter server,各个model replicas从parameter server对应的shard中获取参数,并将