反向传播算法-损失函数&激活函数

最新推荐文章于 2024-05-01 17:26:11 发布

aohun0743

最新推荐文章于 2024-05-01 17:26:11 发布

阅读量1.7k

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/YSPXIZHEN/p/8622302.html

版权

在监督学习中，传统的机器学习算法优化过程是采用一个合适的损失函数度量训练样本输出损失，对损失函数进行优化求最小化的极值，相应一系列线性系数矩阵W对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为反向传播算法，可以使用多种损失函数和激活函数。

1. 均方差损失函数+Sigmoid激活函数

Sigmoid激活函数的表达式为：

σ(z)

对于Sigmoid，当z

2. 交叉熵损失函数+Sigmoid激活函数

Sigmoid的函数特性导致反向传播算法收敛速度慢的问题，有两种改进策略：1）换激活函数；2）使用交叉熵损失函数来代替均方差损失函数：使用交叉熵得到的的δ^l

3. 对数似然损失函数和softmax激活函数

上述输出是连续可导的值，但如果是分类问题，输出是一个个的类别时，假设对三个类别进行分类，输出层应该有三个神经元，假设第一个神经元对应类别一，第二个对应类别二，第三个对应类别三，这样我们期望的输出应该是(1,0,0)、(0,1,0)和(0,0,1)这三种。即样本真实类别对应的神经元输出应该无限接近或者等于1，而非改样本真实输出对应的神经元的输出应该无限接近或者等于0。或者输出层的神经元对应的输出是若干个概率值，这若干个概率值即DNN模型对于输入值对于各类别的输出预测，同时满足概率模型，这若干个概率值之和应该等于1。分类模型要求是输出层神经元输出的值在0到1之间，同时所有输出值之和为1。

Softmax激活函数的表达式为：

其中，n^L

Softmax激活函数在前向传播算法时：

反向传播：假设真实类别是第i类，则其他不属于第i类序号对应的神经元的梯度导数直接为0。对于真实类别第i类，它的W_i^L

梯度消失&梯度爆炸：在反向传播算法过程中，由于使用矩阵求导的链式法则，有一大串连乘，如果连乘的数字在每层都是小于1的，则梯度越往前乘越小，导致梯度消失；连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸。

1）对于梯度爆炸，一般可以通过调整DNN模型中的初始化参数来解决；

2）对于梯度消失，可部分解决梯度消失问题的办法是使用ReLU（Rectified Linear Unit）激活函数，ReLU在卷积神经网络CNN中已得到广泛应用。

　　ReLU激活函数表达式为：

　　大于等于0则不变，小于0则激活后为0。

转载于:https://www.cnblogs.com/YSPXIZHEN/p/8622302.html

aohun0743

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法-损失函数&激活函数

在监督学习中，传统的机器学习算法优化过程是采用一个合适的损失函数度量训练样本输出损失，对损失函数进行优化求最小化的极值，相应一系列线性系数矩阵W，偏置向量b即为我们的最终结果。在DNN中，损失函数优化极值求解的过程一般采用梯度下降法、牛顿法或拟牛顿法等迭代方法来迭代完成。对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为反向传播算法，可以使用多种损失函数和激活函数。1. 均...
复制链接

扫一扫