神经网络的损失函数

电器爆破专家

已于 2022-10-19 15:16:56 修改

阅读量1.1k

点赞数

分类专栏： # 神经网络文章标签：神经网络机器学习深度学习

于 2022-10-10 22:46:33 首次发布

本文链接：https://blog.csdn.net/A_fearless_engineer/article/details/127199029

版权

神经网络专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

均方误差
交叉熵
自定义函数

均方误差

均方误差（mean square error, MSE）是原始 BP 算法中使用的损失函数，就是将预测值与目标值的差求平方，之后再平均。以下是公式：
$\ell=\frac{1}{m}{\left\|\widehat Y^{[k]}-Y^{[k]}\right\|_2}^2$ $\ell$ 为损失值， $\widehat Y$ 和 $Y$ 分别为特征值向量（此处不是指矩阵论中的特征向量，是指向网络输入层输入的向量）的预测值向量和目标值向量， $m$ 为以上两个向量的维度。
MSE 至今仍是回归模型常用的损失函数。

交叉熵

我们已经知道，在分类模型中常常使用 Softmax 作为输出层的激活函数。Softmax 输出的是一组概率值，目标值是一个独热码，数值范围为 $[0, 1]$ 。如果使用 MSE 作为损失函数，那么损失值就是一组 $- 1$ 到 $1$ 的数先平方再求平均，即损失值是一个 $0$ 到 $1$ 的数，损失值的下降空间太过狭小且反向传播求出的梯度值也小，模型收敛速度慢。
-ln x

这时我们可以考虑 $-\ln x$ 函数，它可以把 $[0, 1]$ 映射到 $\infty]$ ，且其导函数导得值域也大。值得注意的是，当对 $-\ln x$ 使用梯度下降时，会使 $x$ 从 $0$ 向 $1$ 靠近。所以我们只能对目标值向量中分量为 $1$ 的应用 $-\ln x$ 。基于以上，我们常使用交叉熵（cross entropy, CE）来作为分类模型的损失函数，其表达式如下：
$\ell=-\sum_{j=1}^{m}{y_j\cdot \ln{\widehat y_j}}$ $\ell$ 为损失值， $\widehat y_j$ 和 $y_j$ 分别为特征值向量的预测值向量与目标值向量的第 $j$ 个分量， $m$ 为以上两个向量的维度。
在实际应用中，Softmax 与 CE 是搭配使用的。