北大慕课Tensorflow实践过程笔记2——神经网络优化

最新推荐文章于 2024-10-08 09:39:10 发布

嘟嘟嘟子君

最新推荐文章于 2024-10-08 09:39:10 发布

阅读量427

点赞数

文章标签： tensorflow 神经网络

本文链接：https://blog.csdn.net/irisdududu/article/details/105149527

版权

神经网络优化

复杂度
学习率
激活函数
损失函数
缓解过拟合
神经网络参数优化器

复杂度

在这里插入图片描述

学习率

在这里插入图片描述

激活函数

对于线性函数，即使有多层神经元首尾相接，依旧是线性组合，模型的表达力不够。y=f（x*w+b）
f为激活函数，正是由于非线性激活函数的加入，使得多层神经网络不再是输入X的线性组合，使得神经网络可以随层数的增加提升表达能力了。

如何寻找一个优秀的激活函数

非线性：激活函数非线性时，多层神经网络可逼近所有函数。只有激活函数是非线性时才不会被单层网络替代，使多层网络有了意义。
可微性：优化器大多用梯度下降更新参数。激活函数不可微无法更新参数。
单调性：当激活函数是单调的，能保证单层网络的损失函数是凸函数
近似恒等性：当参数初始化为随机小值时，神经网络更稳定。f（x）=x，激活函数的输出值近似等于输入值

激活函数输出值的范围/特点：

激活函数输出为有限值时，权重对特征的影响会更显著，基于梯度的优化方法去更新参数会更稳定。
激活函数输出为无限值时，参数的初始值对模型的影响非常大，建议调小学习率。

常用的激活函数

在这里插入图片描述
把输入值变换到0和1之间输出，如果输入值是非常大的负数，输出值就是0；如果输入值是非常大的正数，输出就是1；相当于对输入进行了归一化。
近年来使用sigmoid函数做神经网络的激活函数的已经很少了，因为深层神经网络更新参数时，需要从输出层到输入层逐层进行链式求导，而sigmoid函数的导数输出是0到0.25之间的小数，链式求导需要多层导数连续相乘，会出现多个0-0.25之间的连续相乘，结果将趋近于0，产生梯度消失，使得参数无法继续更新。我们希望输入每层神经网络的特征是以0为均值的小数值，但是过sigmoid激活函数后的数据都是正数，会使收敛变慢。另外，sigmoid函数存在幂运算计算复杂度大，训练时间长。

在这里插入图片描述
从函数图像看，这个激活函数的输出值为零均值了，但是依旧存在梯度消失和幂运算问题。

relu函数的输出不是以0为均值的，会使收敛变慢，同时会存在dead relu 问题，也就是送入激活函数的输入特征是负数时，激活函数的输出是0，反向传播得到的梯度是0，导致参数无法更新，造成神经元死亡。
其实造成神经元死亡的根本原因是经过relu函数的负数特征过多导致。我们可以改进随机初始化，避免过多的负数特征送入relu函数，可以通过设置更小的学习率，减少参数分布的巨大变化，避免训练中产生过多的负数特征进入relu函数。
在这里插入图片描述
函数是为了解决relu负区间为0，引起神经元死亡问题而设计的。leaky relu负区间引入了一个固定的斜率a，使得leaky relu负区间不再恒等于0。虽然该函数比relu效果好，但是在实际使用中，选择relu做激活函数的网络。会更多