【知识建设】交叉熵损失

反科研pua所所长

已于 2022-02-22 21:16:29 修改

阅读量777

点赞数 1

分类专栏：机器学习文章标签：机器学习深度学习逻辑回归

于 2022-02-22 15:41:16 首次发布

本文链接：https://blog.csdn.net/YasmineC/article/details/123064345

版权

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

参考知乎文章对交叉熵损失的理解

先默写下交叉熵损失的公式：

$logP(y|x)=-ylog{\hat{y}}-(1-y)log(1-\hat{y})$

其中 $y$ 是真实值， $\hat{y}$ 是预测值

如何推导

首先从sigmoid函数说起：

$g(s)=\frac{1}{1+e^{-s}}$
在这里插入图片描述
这个函数通常被用于神经网络的最后一层，作为输出前的最后一层，其中 $s$ 为倒数第二层的输出。因此 $g (s) = P (y ∣ x)$ ，其中 $x$ 为输入， $y$ 为输出

sigmoid函数的性质是： $s = 0$ , $g (s) = 0.5$ . $s > > 0$ , $g(s)\approx1$ . $s < < 0$ , $g(s)\approx0$ .

则 $\hat{y}=P(y=1|x)$ . $1-\hat{y}=P(y=0|x)$ .

利用最大似然估计将上述两个式子合并（并不太懂是怎么合并的，在我的认知中，最大似然估计，是在已知分布表达式的情况下，通过样本和真实值反推模型参数的方法）：

$P(y|x)=\hat{y}^y(1-\hat{y})^{1-y}$

同取对数得到：

$logP(y|x)=ylog\hat{y}+(1-y)log(1-\hat{y})$

对其取负得到：

$Loss=-ylog\hat{y}-(1-y)log(1-\hat{y})$

第一种情况

分析上述式子，当 $y = 1$ 时， $Loss=-log\hat{y}$ ，函数图像如下：
在这里插入图片描述
当 $\hat{y}\to1(==y)$ , $Loss\to0$
当 $\hat{y}\to0(!=y)$ , $Loss\to\infty$
且 $\hat{y}\to0$ 的过程更加陡峭，代表惩罚更重

第二种情况

同样的，当 $y = 0$ 时， $Loss=-log(1-\hat{y})$ ，函数图像如下：
在这里插入图片描述
当 $\hat{y}\to0(==y)$ , $Loss\to0$
当 $\hat{y}\to1(!=y)$ , $Loss\to\infty$
且 $\hat{y}\to1$ 的过程更加陡峭，代表惩罚更重

第三种情况

这里还有一种情形，即 $y! = 0$ && $y! = 1$ . 在某些任务中，真值ground truth可能并不是绝对的正/负，比如在一些匹配任务中，可以对被匹配的对象进行proposal的划分，最后得到的是每个proposal与查询的匹配分数，而这些proposal与ground truth之间大概率不会完全的重合，因此就会proposal的真值 $y$ 可以用0~1之间的概率来衡量。

这种情况下，损失函数的两部分都不会消失，原函数变为 $Loss=-alog\hat{y}-blog(1-\hat{y})$ , $a = y$ , $a + b = 1$ .
当 $a = y = 0.3$ 时，图像如下：
在这里插入图片描述
当 $a = y = 0.5$ 时，图像如下：

可以看到，当 $\hat{y}$ 越逼近于 $y$ 的值，损失值越小，且越远离 $y$ 的值，损失的增长速度越快。因此，符合损失的要求。

从交叉熵损失这里获得一点感悟，其实深度学习当前的学习率有很大的水分，比如我在做一个是否是猫的预测任务，假如 $y = 1$ ，只要我的预测值 $\hat{y}>0.5$ 就都能够被视为预测正确，然而当 $\hat{y}$ 值较低的时候，不能说明深度模型的判别能力强。而交叉熵损失提供了解决这个问题的弊端，也就是交叉熵损失能够区分相同错误率的模型的优劣（具体之后再更新）。参考知乎文章

反科研pua所所长

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【知识建设】交叉熵损失

这篇相当于看了知乎答主回答后的默写：先默写下交叉熵损失的公式：logP(y∣x)=−ylogy^−(1−y)log(1−y^)logP(y|x)=-ylog{\hat{y}}-(1-y)log(1-\hat{y})logP(y∣x)=−ylogy^−(1−y)log(1−y^)其中yyy是真实值，y^\hat{y}y^是预测值如何推导首先从sigmoid函数说起：g(s)=11+e−sg(s)=\frac{1}{1+e^{-s}}g(s)=1+e−s1这个函数通常被用于神经网络的最后
复制链接

扫一扫