Focal Loss损失函数

最新推荐文章于 2024-08-21 18:05:55 发布

Aced96

最新推荐文章于 2024-08-21 18:05:55 发布

阅读量3.4k

点赞数 11

分类专栏： Detection论文阅读笔记文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/Aced96/article/details/108242012

版权

Detection论文阅读笔记专栏收录该内容

6 篇文章 2 订阅

订阅专栏

一、交叉熵损失函数原理

1.信息量

信息的定义是用来消除随机不确定性的东西。也就是说衡量信息的大小是看信息消除不确定性东西的程度。信息量的大小与信息发生的概率成反比。

设某一时间发生的概率为P(x)，其信息量表示为：

$I (x) = - l o g (P (x))$
其中 $I (x)$ 表示信息量，这里 $l o g$ 表示以e为底的自然对数。

2.交叉熵

信息熵：也称为熵，用来表示所有信息量的期望。

期望是试验中每次可能结果的概率乘以其结果的总和。
信息熵可以表示为（这里的 $X$ 是一个离散型随机变量）：
$H(X)=-\sum_{i=1}^n P(x_i)log(P(x_i)) (X=x_1,x_2,x_3...,x_n)$
对于0-1分布问题：设某一时间发生的概率为 $P (x)$ ,则另一事件发生的概率为 $1 - P (x)$ 。计算熵的公式可以简化如下：
$H(X)=-\sum_{n=1}^nP(x_ilog(P(x_i)))\\ =-[P(x)log(P(x))+(1-P(x))log(1-P(x))]\\=-P(x)log(P(x))-(1-P(x))log(1-P(x))$

相对熵（KL）散度：如果对于随机变量X有两个单独的概率分布 $P (x)$ 和 $Q (x)$ ，那我们就可以用KL散度来衡量着两个概率分布之间的差异。

在机器学习中，我们常用 $P (x)$ 来表示样本的真实分布， $Q (x)$ 来表示模型预测的分布。
$D_{KL}(P||Q)=\sum_{i=0}^nP(x_i)log(\frac{P(x_i)}{Q(x_i)}))$
例如在三分类任务中， $X$ 的真实分布 $P (x) = [1, 0, 0]$ ,预测分布为 $Q (x) = [0.7, 0.2, 0.1]$ ,计算 $X$ 的KL散度？

在这里插入图片描述
KL散度越小，表示 $P (x)$ 与 $Q (x)$ 的分布更加接近，可以通过反复训练 $Q (x)$ 来接近 $P (x)$ 。

交叉熵：交叉熵 = KL散度 + 信息熵

公式推导：先将KL散度公式拆开
前者 $H (p (x))$ 表示信息熵，后者即为交叉熵。
交叉熵公式表示为：
在这里插入图片描述
在机器学习中，输入数据与标签常常已经确定，真实概率分布 $P (x)$ 也就确定。所以信息熵变成了常量。
$交叉熵 = K L 散度 + 常量 (信息熵)$
由于KL散度的值表示真实概率分布 $P (x)$ 与预测概率分布 $Q (x)$ 之间的差异。值越小表示预测值越接近真实值。所以我们需要最小化 $K L 散度$ 。交叉熵这里也有相同的作用，所以机器学习中常常使用交叉熵损失函数来计算loss。

二、Focal Loss函数

通过上面部分已了解交叉熵损失函数。二分类损失函数公式如下：
在这里插入图片描述
其中 $y$ 为真实样本的标签， $y^{'}$ 为经过sigmoid的预测输出(取值在[0,1]之间)。
普通的交叉熵对正样本而言，输出概率越大，损失越小。对负样本而言：输出概率越小，损失越小。
问题来了：此时的损失函数在大量样本的简单迭代中比较缓慢且可能无法优化至最优。