《Distributed Neural Networks with GPUs in the AWS Cloud》
原文链接:http://techblog.netflix.com
这篇文章应该是Netflix对利用AWS进行ANN分布式训练的一个介绍,虽然主题是ANN,但大部分内容主要是在讲如何对模型进行分解以适应分布式的训练,和如何优化计算 以缩短训练时间,感觉适用于很多分布式应用,而不仅限于ANN的训练。
文中提到Ng 仅用了3台机器用了几天时间就完成了 大规模的模型训练,并且其规模是猫脸模型的6.5倍。猫脸模型就是大名鼎鼎的google大脑,当时是用了1000台共16000个核的计算机。这个提升是怎么做到的?其中一点原因是从CPU升级到了GPU ,其他原因文中没有明确说明。个人认为还有一个可能是 :猫脸模型是首个最接近人脑模型,刚开始估计以功能为主,没有作过太多优化,这也给后续的提升留了大量空间。
分布式训练的三个层次
文中将模型训练过程分解为三个层次,在这三个层次上进行分布式训练: