尽管有各种深度学习加速器,神经网络的大小依然受限于计算平台的能力。百度硅谷人工智能实验室高级研究员Greg Diamos在最近的ICML 2016上发表了一篇PRNN(Persistent RNNs)的论文(相关英文访谈),介绍了他在深度学习平台GPU可扩展性方面的最新工作。但在此之前,Greg Diamos已经在Github上发布一篇博客文章简要解释了PRNN的工作和效果,本文为这篇文章的译文。PRNN已经在Github上开源,感兴趣的读者可以自行下载。
1. 简介
在SVAIL(百度硅谷人工智能实验室),我们的使命是创造能够对数以亿计的人们产生深远影响的AI技术。我们相信,达到这个目标的一种良好方式是提高语音识别的准确性,这将通过在更大数据集上使用深度学习算法实现。这些算法需要大量的运算,所以系统的内存大小和计算吞吐量会限制数据量以及我们可以训练的神经网络大小。所以搞清楚如何更有效地运行深度学习是一大挑战。这么做可以让我们在更大数据集上训练更大的模型,目前已经提高了语音识别的准确性。在这里,我们将要讨论一项新技术,它能加快深度递归神经网络(Recurrent Neural Networks)的训练。
2. 将递归层映射到硬件上
我们两个语音识别模型的密集计算集中于递归层(上图中蓝色部分),所以这种优化直接针对这部分网络。