常见的损失函数

最新推荐文章于 2024-04-30 23:23:05 发布

w_suixin

最新推荐文章于 2024-04-30 23:23:05 发布

阅读量342

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/w_suixin/article/details/107917459

版权

1. 均方误差损失函数

一般加上sigmoid激活函数规范到0-1。
$\frac{1}{n} \sum_{i=1}^n(\hat{y_i}-y_i)^2$

torch.nn.MSELoss(reduction='mean')

2. 交叉熵损失函数

多分类任务中，经常采用softmax激活函数 + 交叉熵损失函数，交叉熵损失函数描述了两个概率分布的差异。

$H(p,q)=-\sum_{i=1}^n p(x_i)log(q(x_i))$

torch.nn.CrossEntropyLoss(weight=None,ignore_index=-100, reduction='mean')

信息量：
如果一个信息发生的概率越大，其包含的信息量就越少 $I (x) = - l o g (p (x))$
信息熵：
所有信息的期望。比如说明天下雨的概率0.5；多云的概率0.3；晴天的概率0.2；则：
$H(x)=-\sum_{i=1}^{n} -p(x_i)log(p(x_i))$
$-0.5\times log(0.5)-0.3\times log(0.3)-0.2\times log(0.2)$
KL散度：
衡量两个分布的差别, $p$ 为真实分布， $q$ 为预测； $p 和 q$ 完全一致时，才为0。
$D_{kl}(p||q) = \sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$
交叉熵：
$D_{kl}(p||q)=\sum_{i=1}^np(x_i)log(p(x_i))-\sum_{i=1}^np(x_i)log(q(x_i))$
KL散度=交叉熵-信息熵。信息熵是定值，所以交叉熵和KL酸度一样可以衡量两个分布的差异。

3. 二元交叉熵损失函数（BCE）

$-ylog\hat{y}-(1-y)log(1-\hat{y}))$

torch.nn.BCELoss(weight=None, reduction='mean')

举个栗子：
预测一个物体是不是栗子，如果真实值是栗子 $y_{truth} = [1,0]$ ；预测是栗子的概率是0.8，则换成one-hot编码应该是： $y_{pred} = [0.8,0.2]$
$-1\times {log(0.8)} -0\times log(0.2)$

4. BCEWithLogitsLoss

把sigmoid层集成到BCELoss类中。

torch.nn.BCEWithLogitsLoss(weight=None, reduction='mean', pos_weight=None)

5. Smooth L1损失

在目标检测中预测坐标时，容易产生梯度爆炸。
将均方误差转换为SmoothL1损失。
$smooth_{L_1}(x) = \begin{cases} 0.5x^2 & \text{if|x|<1} \\ |x|-0.5 & \text{otherwise} \end{cases}$

6. Hinge Loss

$y*\hat{y})$

7.Focal Loss

目标检测任务中，样本间类别不均衡会导致准确率不高。
Focal Loss可增加难分类样本的权重。
$-\alpha_t(1-p_t)^\gamma log(p_t)$

w_suixin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见的损失函数

1. 均方误差损失函数一般加上sigmoid激活函数规范到0-1。MSE=1n∑i=1n(yi^−yi)2MSE = \frac{1}{n} \sum_{i=1}^n(\hat{y_i}-y_i)^2MSE=n1i=1∑n(yi^−yi)2torch.nn.MSELoss(reduction='mean')2. 交叉熵损失函数多分类任务中，经常采用softmax激活函数 + 交叉熵损失函数，交叉熵损失函数描述了两个概率分布的差异。H(p,q)=−∑i=1np(xi)log(q(xi)
复制链接

扫一扫