机器学习-损失函数

最新推荐文章于 2024-03-20 20:01:18 发布

Dovy

最新推荐文章于 2024-03-20 20:01:18 发布

阅读量479

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Simplify_boy/article/details/106586515

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

为什么使用损失函数

$\theta_{j+1}=\theta_j-\eta\frac{\partial J(\theta_j)}{\partial \theta_j}$

$\theta_{j+1}$ :更新后的权重； $\eta$ :学习率； $\frac{\partial J(\theta_j)}{\partial \theta_j}$ :权重的梯度。
$\frac{\partial J(\theta_j)}{\partial \theta_j}$ <0时， $\theta$ 向右；
$\frac{\partial J(\theta_j)}{\partial \theta_j}$ >0时， $\theta$ 向左；
即， $\theta$ 每次更新，都朝最小的方向。

损失函数的性质

连续可导，且导数不是处处为零。
非负。因为损失函数最小时，预测和真实值完全一致，损失函数为零，也就是说，损失函数最小为零，即非负。

常用的损失函数

均方误差(MSE)

均方误差是常用的回归损失函数。
$MSE=\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y_i})^2$

$\hat{y_i}=w_ix_i+b_i$

$\frac{\partial MSE}{\partial w_i}=2x_i(w_ix_i+b_i-y_i)=2x_i(\hat{y}_i-y_i)$

即
$L(y,\hat{y})=\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y_i})^2$

$\frac{\partial L(y,\hat{y}) }{\partial w}=2x(wx+b-y)=2x(\hat{y}-y)$

当 $\hat{y}_i$ 和 $y_i$ 相差越大，loss越大。
在这里插入图片描述

平均绝对误差(MAE)

$MAE=\frac{1}{n}\sum^n_{i=1}|y_i-\hat{y_i}|$

$\hat{y_i}=w_ix_i+b_i$

$\frac{\partial MAE}{\partial w_i}=\left\{ \begin{aligned} -x_i,w_ix_i+b_i-y_i<0 \\ x_i,w_ix_i+b_i-y_i>0 \\ \end{aligned} \right.$
在这里插入图片描述
MSE和MAE的区别：

MSE比MAE更敏感，训练速度更快。
MSE对于异常值也非常敏感，而MAE对异常值的抑制更好一点。

问题：分类问题能用MSE吗？
答案：是可以的，但是一般不用。
以逻辑回归为例： $a=\frac{1}{1+e^{-z}}$

$z = w x + b$

$MSE=\frac{1}{2}(a-y)^2$

$\frac{\partial MSE}{\partial w_i}=\frac{\partial MSE}{\partial a}\frac{\partial a}{\partial z}\frac{\partial z}{\partial w}=(a-y)\sigma^{'}(z)x$

$\sigma'(z)=(1-a)a$

即
$L(y,\hat{y})=\frac{1}{2}(\hat{y}-y)^2$

$\frac{\partial L(y,\hat{y}) }{\partial w}=(\hat{y}-y)\sigma'(z)x$

在 $z$ 较大或较小时， $\sigma'(z)\thickapprox0$ ,所以训练的很慢，故一般不用MSE来作为分类问题的损失函数。
分类问题的损失函数，我们希望损失函数的导数为 $(a - y) x$ 。

交叉熵损失函数(cross_entropy)

期望、方差和协方差

期望
离散： $E_{x\sim P}[f(x)]=\sum_{x}P(x)f(x)$
连续： $E_{x\sim p}[f(x)]=\int p(x)f(x)$
期望是线性的 $E_{x}[\alpha f(x)+\beta g(x)]=\alpha E_{x}[f(x)]+\beta E_{x}[g(x)]$
方差
$Var(f(x))=E[(f(x)-E[f(x)])^2]$
方差的平方根为标准差。
协方差
给出了两个变量的线性相关性的强度以及这些变量的尺度。
$C o v (f (x), g (y)) = E [(f (x) - E [f (x)]) (g (y) - E [g (y)])]$

信息量

一个事件发生的概率越大，则信息量越小。（只处理单个的输出） $I (x) = - l o g (P (x))$

例如：
事件A：锅考试及格的概率为 $P (x A) = 0.1$ , $I (x A) = - l o g (0.1) = 3.3219$
事件B：盆小考试及格的概率为 $P (x B) = 0.999$ , $I (x B) = - l o g (0.999) = 0.0014$

香浓熵

对整个概率分布中的不确定性总量进行量化。
$H(x)=E_{x\sim P}[I(x)]$

KL散度

同一个随机遍x有两个单独的概率分布 $P (x)$ 和 $Q (x)$ ，可以使用KL(Kullback-Leibler(KL) divergence)来衡量这两个分布的差异。
$D_{KL}(P||Q)=E_{x\sim P}[log\frac{P(x)}{Q(x)}]=E_{x\sim P}[logP(x)-logQ(x)]$
它是非负的;KL散度为零当且仅当P和Q在离散型变量的情况下是相同的分布。
$D_{KL}(P||Q)\ne D_{KL}(Q||P)$

$KL(p||q)=E_p[-log(\frac{q(x)}{p(x)})]\ge-log[E_p\frac{q(x)}{p(x)}]=-log[\sum_{x|p(x)>0}p(x)\frac{q(x)}{p(x)}]=-log[\sum_{x\in{X}}]=-log1=0$

交叉熵

一个和KL散度密切联系的量。 $H(P,Q)=H(P)+D_{KL}(P||Q)$
$H(P,Q)=-E_{x\sim P}logQ(x)$
针对Q最小化交叉熵等价于最小化KL散度，因为Q并不参与被省略的那一项。
信息论中， $lim_{x→0} x log x = 0$

熵

$p$ 是真实分布(在分类中对应类别标签)， $q$ 是模型预测出来的概率分布，交叉熵是非对称的，描述的是假设一个预测的概率分布 $q$ 服从的是真实分布 $p$ ，所需要的平均信息量。(越小越好)
如果预测的分布 $q$ 越接近真实的分布 $p$ ，那么这个信息量就越小。
$H (p, q) = - p (x) l o g (q (x))$

以逻辑回归为例：
$a=\frac{1}{1+e^{-z}}$

$z = w x + b$

$cross\_entropy=-yloga-(1-y)log(1-a)$

$\frac{\partial cross\_entropy}{\partial w}=\frac{\partial cross\_entropy}{\partial a}\frac{\partial a}{\partial z}\frac{\partial z}{\partial w}=(-\frac{y}{a}+\frac{1-y}{1-a})\sigma'(z)x=(a-y)x$

即 $L(y,\hat{y})=-(\hat{y}logy_i+(1-\hat{y})log(1-y_i))$

$\frac{\partial L(y,\hat{y})}{\partial w}=(y-\hat{y})x$

多分类交叉熵损失函数

softmax loss
$y_i=softmax(z_i)=\frac{e^{z_i}}{\sum^n_{i=1}e^{z_i}}$

$L(y,\hat{y})=-\frac{1}{n}\sum^n_{i=1}\hat{y}_ilog(y_i)$

focal loss
Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。
$y_i=softmax(z_i)=\frac{e^{z_i}}{\sum^n_{i=1}e^{z_i}}$

$L(y,\hat{y})=-\frac{1}{n}\sum^n_{i=1}\hat{y}_i\alpha_i(1-y_i)^\gamma log(y_i)$

论文中 $\alpha=0.25$ ，γ=2效果最好。
在这里插入图片描述
3. 合页损失hinge_loss
也叫铰链损失，是svm中使用的损失函数。
由于合页损失优化到满足小于一定gap距离就会停止优化，而交叉熵损失却是一直在优化，所以，通常情况下，交叉熵损失效果优于合页损失。
$L(y,\hat{y})=\frac{1}{n}\sum^n_{i=1}max(0,1-\hat{y}_iy_i)$