神经网络剖析激活函数优缺点（Undetanding the difficulty of training deep feedforward neural networks）

最新推荐文章于 2021-11-06 20:54:20 发布

AI_Younger_Man

最新推荐文章于 2021-11-06 20:54:20 发布

阅读量1.4k

点赞数 1

分类专栏： # 深度学习文章标签：神经网络算法 python

本文链接：https://blog.csdn.net/qq_38888209/article/details/105888722

版权

摘要：在2006年以前，似乎深度多层的神经网络没有被成功训练过。自那以后少数几种算法显示成功地训练了它们，实验结果表明了深度多层的架构的优越性。所有这些实验结果都是通过新的初始化或训练机制获得的。我们的目标是更好地理解为什么随机初始化的标准梯度下降法在深度神经网络下表现如此糟糕，为了更好地理解最近的相对成功并帮助设计未来更好的算法。我们首先观察了非线性激活函数的影响。我们发现logistic sigmoid激活不适用于随机初始化的深度网络，因为它的平均值，特别是顶部隐藏层进入饱和状态。令人惊讶的是，我们发现饱和单位可以移出自我饱和，尽管低，并且在训练神经网络时解释有时会出现高原。我们发现饱和度较低的新非线性通常是有益的。最后，我们研究层和训练过程中激活和梯度如何变化，当训练可能更加困难时，与每层相关联的雅可比矩阵的奇异值远不等于1。基于这些考虑，我们提出了一种新的初始化方案，其带来显着更快的收敛。

介绍这篇论文的主要内容就是尝试更好的理解为什么使用“标准随机初始化”来计算使用标准梯度下降的网络效果通常来讲都不是很好。

首先研究了不同的非线性激活函数的影响，发现 sigmoid 函数它的均值会导致在隐层中很容易到达函数的饱和区域，因此sigmoid
激活函数在随机初始化的深度网络中并不合适。但同时惊喜的发现，处于饱和的神经元能够自己“逃脱出”饱和状态。

最后研究了激活值和梯度值如何在训练过程中的各层次里发生变化，其中，当与每个层相关联的雅可比矩阵的奇异值远远大于1时，训练可能会变得更加困难。基于这些考虑，提出了一种新的初始化方法，可以带来更快的收敛速度。

为什么使用非线性的激活函数？而不是线性的函数：
因为非线性的激活函数可以拟合非线性的曲面，而不是一条直线，分离边界更加灵活。
在这里插入图片描述
这边论文模型采用了多个激活函数：
使用softsign是因为他不会过快的接近饱和，三次多项的非线性，而不是指数级别的非线性
饱和的速度会慢一点。

在这里插入图片描述
饱和的时候，梯度接近于0，什么都学习不到了。
接近于两边也不好，接近于0出也不好，太过于线性了
softsign非线性的部分范围更大

每一层的均值和标准差：
可以看到后面的曲线很快就达到饱和了
所以bp神经网络如果你的层数非常多，就很容易达到饱和值
在这里插入图片描述

1 深度神经网络

深度学习方法的目标是通过低层次特征的组合形成更高层次的特征层次结构。它们包括用于各种深层架构的学习方法，包括具有许多隐藏层的神经网络（Vincentet al。，2008）和具有多层隐变量的图形模型（Hinton等，2006）等（Zhuet al。， 2009; Weston等，2008）。由于它们的理论吸引力，来自生物学和人类认知的灵感以及由于视觉的经验成功（Ranzato等人，2007; Larochelle等人，2007），因此他们最近注意到了它们（参见（Bengio，2009） 2007; Vincent等，2008）和自然语言处理（NLP）（Collobert＆Weston，2008; Mnih＆Hinton，2009）的联系。Bengio（2009）回顾和讨论的理论结果表明，为了学习能够代表高级抽象的复杂功能（例如，在视觉，语言和其他AI级任务中），可能需要深层架构。最近的深层结构实验结果是通过模型得到的，这些模型可以转化为中间监督神经网络，但初始化方法不同于经典的前向神经网络（Rumelhart et al。，1986）。为什么这些新算法比标准随机初始化和基于梯度的无监督训练准则优化工作得更好？部分答案可能在最近对无监督预训练效果的分析中发现（Erhan等人，2009），表明它起着规范化的作用，在优化过程的“更好”盆地中初始化参数，对应于明显的局部但与早期的工作（Bengio等人，2007）相比，即使是纯粹的监督但贪婪的分层过程也会带来更好的结果。因此，在这里，我们不是专注于无监督的预培训或半监督标准给深层架构带来什么，而是专注于分析好的旧（但深度）多层神经网络可能出现的问题。我们的分析是由调查实验驱动到monitrogen激活（注意饱和我们还评估了这些激活函数选择（以及它可能影响饱和度的思想）和初始化过程（由于无监督预训练是一种特殊形式的初始化，并且它具有隐含单位） adrastic影响）。

2 实验设置和数据集

生成本节介绍的新数据集的代码可从以下网址获得

http://www.iro.umontreal.ca/˜lisa/twiki/bin/view.cgi/Public/DeepGradientsAISTATS2010

2.1无限数据集的在线学习：

Shapeset-3 × 2：总共3种类型的图（椭圆，方框，三角），每张图片从里面随机选两个
在这里插入图片描述

我们将这个数据集称为Shapeset-3×2数据集，图1中的示例图像（顶部）。 Shapeset-3×2包含1或2个二维物体的图像，每个物体取自3个形状类别（三角形，平行四边形，椭圆形），并放置有随机形状参数（相对长度和/或角度），缩放，旋转，平移和灰度。

我们注意到，图像中只有一个形状，识别它的任务太简单了。因此，我们决定对两个物体的图像进行取样，限制第二个物体与第一个物体不超过其面积的百分之五十，

最低0.47元/天解锁文章

AI_Younger_Man

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络剖析激活函数优缺点（Undetanding the difficulty of training deep feedforward neural networks）

摘要：在2006年以前，似乎深度多层的神经网络没有被成功训练过。自那以后少数几种算法显示成功地训练了它们，实验结果表明了深度多层的架构的优越性。所有这些实验结果都是通过新的初始化或训练机制获得的。我们的目标是更好地理解为什么随机初始化的标准梯度下降法在深度神经网络下表现如此糟糕，为了更好地理解最近的相对成功并帮助设计未来更好的算法。我们首先观察了非线性激活函数的影响。我们发现logistic si...
复制链接

扫一扫