损失函数

最新推荐文章于 2024-05-07 11:10:29 发布

郑营

最新推荐文章于 2024-05-07 11:10:29 发布

阅读量1k

点赞数

分类专栏：深度学习文章标签：交叉熵均方误差损失函数目标函数深度学习

本文链接：https://blog.csdn.net/u011649885/article/details/74833246

版权

本文介绍了深度学习中常见的损失函数，包括均方误差和交叉熵损失函数的定义、图像和应用场景。损失函数在神经网络训练中起到关键作用，通过最小化损失函数来优化模型。此外，还提到了0-1损失函数、指数损失函数和Hinge损失函数的基本概念。

摘要由CSDN通过智能技术生成

1 概述

在统计学中，损失函数是一种衡量损失和错误（这种损失和“错误的”估计有关）程度的函数。

本篇只分析神经网络中的损失函数：神经网络是经过“训练”后能够识别声音、识别图片的算法模型。“训练”的过程就是通过梯度下降或者其它优化算法最小化损失函数的过程。所以损失函数又叫目标函数。

同时我们期望，损失函数的值比较大时，它对应的梯度也要比较大；损失函数的值比较小时，它对应的梯度也比较小。这样更新参数就可以更新的快一点。
损失函数遵循的准则就是最小化平方误差，如下式：
$minC(Y,G(X)) = || G(X) - Y ||^{2}$

所以说损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度。它是一个非负函数。

##2 常见的损失函数

MSE： Mean Squared Error，均方误差
**CEE: ** Cross Entropy Error, 交叉熵误差
0-1损失函数
指数损失函数
Hinge损失函数

###2.1 均方误差损失函数

公式：
$L(Y,f(X)) = (Y-f(X))^{2}$
图像：

当样本个数为n时，此时的损失函数变为：

$\sum_{i=1}^{N}(y-f(x))^{2}$
平方损失函数是基于最小二乘法的或者是基于正太分布下的极大似然估计的。
**最小二乘法：**最优拟合直线应该是使各点到回归直线的距离之和最小的直线，即平方和最小。
**最大似然估计：**就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
为什么要基于最小二乘法呢？因为最小二乘法和正太分布下的极大似然估计的结果是一致的。

数学推导：
在实际训练过程中，数据都是海量的，根据中心极限定理，我们假设误差满足平均值u为0的正太分布。
那么x,y的条件满足：
$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma})$

上式相当于估计了一条样本的结果概率，根据极大似然估计，我们希望在给定的训练数据中，这些数据出现的概率最大，也就是概率积最大。
累积乘积形式如下：
$L(u,\sigma^{2}) = \prod^{n}_{i=1} \frac{1}{\sqrt{2\pi}\sigma}*e^{(-\frac{(\xi_{i}-u)^{2}}{2\sigma^{2}})}$