深度学习几大难点

最新推荐文章于 2024-06-26 17:12:18 发布

独家记忆_雪1314

最新推荐文章于 2024-06-26 17:12:18 发布

阅读量3.5k

点赞数 4

分类专栏：深度学习，语音识别

本文链接：https://blog.csdn.net/dujiajiyi_xue5211314/article/details/53943492

版权

1、局部最优问题。深度学习算法的目标函数，几乎全都是非凸的。而目前寻找最优解的方法，都是基于梯度下降的。稍微有点背景知识的人都知道，梯度下降方法不能解决是解决非凸问题的。因此，如果找到最优解，将是深度学习领域，非常值得研究的课题。andrew在google的工作，也就是那只猫，其实训练过程是让人很费解的。为了缩短训练时间，项目组采用了分布式训练的方式。采用了1000 台计算机，在不同的

摘要由CSDN通过智能技术生成

1、局部最优问题。

深度学习算法的目标函数，几乎全都是非凸的。而目前寻找最优解的方法，都是基于梯度下降的。稍微有点背景知识的人都知道，梯度下降方法不能解决是解决非凸问题的。因此，如果找到最优解，将是深度学习领域，非常值得研究的课题。

andrew在google的工作，也就是那只猫，其实训练过程是让人很费解的。为了缩短训练时间，项目组采用了分布式训练的方式。采用了1000 台计算机，在不同的计算机上存储不同的训练数据，不同的训练服务器通过参数服务器进行参数的交换。训练过程开始后，所有的训练计算机从参数服务器更新当前参数，然后利用当前参数以及本机器上的训练数据，计算得到当前的梯度，通过贪婪式方法，训练到不能再训练为止，然后将参数的更新量提交给服务器，再获取新的参数进行更新。

在这个过程中，出现了不同机器在同步时间上的一个大问题。具体阐述如下：梯度下降这种方法，在计算梯度的时候，一定要知道当前参数的具体值，梯度是针对某一个具体的参数值才有意义的。但是，由于在这个系统中，计算机非常多，当计算机A从服务器上获得参数值后，完成梯度的计算得到步进量的时候，可能在它提交结果之前，计算机B已经修改了参数服务器上的参数了。也就是说，A所得到的步进量，并不是针对当前的参数值的。

论文中，作者注意到了这个问题，但是故意不去理会，结果训练结果居然不错。作者的解释是：这是一种歪打正着的现象。

为什么能够歪打正着呢？有可能是这样的：非凸问题，本来就不是梯度下降法能

最低0.47元/天解锁文章

独家记忆_雪1314

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习几大难点

1、局部最优问题。深度学习算法的目标函数，几乎全都是非凸的。而目前寻找最优解的方法，都是基于梯度下降的。稍微有点背景知识的人都知道，梯度下降方法不能解决是解决非凸问题的。因此，如果找到最优解，将是深度学习领域，非常值得研究的课题。andrew在google的工作，也就是那只猫，其实训练过程是让人很费解的。为了缩短训练时间，项目组采用了分布式训练的方式。采用了1000 台计算机，在不同的
复制链接

扫一扫