二分类和多分类交叉熵函数区别详解

最新推荐文章于 2024-04-14 20:09:24 发布

isyangwei

最新推荐文章于 2024-04-14 20:09:24 发布

阅读量4.6k

点赞数 8

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/CAUC_yangxiao/article/details/111872500

版权

计算机视觉专栏收录该内容

1 篇文章 0 订阅

订阅专栏

二分类和多分类交叉熵函数区别详解

写在前面

查了下百度，交叉熵，是度量两个分布间差异的概念。而在我们神经网络中，两个分布也就是y的真实值分布和预测值分布。当两个分布越接近时，其交叉熵值也就越小。

根据上面知识，也就转化为我们需要解决让预测值和真实值尽可能接近的问题，而这正与概率论数理统计中的最大似然分布一脉相承，进而目标转化为确定值的分布和求解最大似然估计问题。

二分类问题

表示分类任务中有两个类别，比如我们想判断一张图片是不是猫。也就是说，训练一个分类器，输入一张图片，用特征向量x表示，输出是不是猫用y=0或1表示，其中1表示是，0表示不是。

这样的问题，我们完全可以用0-1分布来进行表示：

$y_i$	$1-y_i$
$\hat{y_i}$	$1-\hat{y_i}$

注：其中y_i为真实值， $\hat{y_i}$ 为预测值，且 $y_i$ 的值为0或1

此时求解最大似然估计过程如下：
$L(\hat{y_i})=\Pi_{i=1}^{n}\hat{y_i}^{y_i}(1-\hat{y_i})^{1-y_i}$
两边同时取对数
$log(L(\hat{y_i}))=\sum_{i=1}^{n}(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$
最大似然估计要求数越大越好，而损失函数要求越小越好，因而损失函数在前面加上负号，因而也得到了二分类问题使用的交叉熵损失函数。
$Loss=-\sum_{i=1}^{n}(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$

多分类问题

表示分类任务有多个类别，如对一堆水果分类，它们可能是橘子、苹果、梨等，每个样本有且只有一个标签。

这种情况与二分类类似，只是可能的情况增多了，可以描述为一个离散分布

$y_{1}$	$y_2$	…	$y_k$
$\hat{y_1}$	$\hat{y_2}$	…	$\hat{y_k}$

注： $y_1、y_2...y_k$ 为真实值，其中有且只有一个为1，其余为0。（采用one-hot编码）

此时求解最大似然函数过程如下：
$L(\hat{y_i})=\Pi_{i=1}^{n}(\hat{y_{(i,1)}}^{y_{(i,1)}}\hat{y_{(i,2)}}^{y_{(i,2)}}...\hat{y_{(i,n)}}^{y_{(i,n)}})$
因为真实值只有一个为1，其余为0，因而只有1项值非零，可化简为：
$L(\hat{y_i})=\Pi_{i=1}^{n}\hat{y_{(i,m)}}^{y_{(i,m)}}$
注： $\hat{y_{(i,m)}}$ 表示含义为第i个样本，属于第m个类别（m值会随样本的变化动态改变）。

两边同时取对数：
$log(L(\hat{y_i}))=\sum_{i=1}^{n}y_{(i,m)}log(\hat{y_{i,m}})$
与二元分类同理，此时多分类的交叉熵损失函数即为：
$Loss=-\sum_{i=1}^{n}y_{(i,m)}log(\hat{y_{i,m}})$

参考文献

[1] https://www.bilibili.com/video/BV1a5411W7Dn?t=47
[2] https://juejin.cn/post/6844903630479294477

isyangwei

关注

8
点赞
踩
23

收藏

觉得还不错? 一键收藏
3
评论
二分类和多分类交叉熵函数区别详解

二分类和多分类交叉熵函数区别详解写在前面查了下百度，交叉熵，是度量两个分布间差异的概念。而在我们神经网络中，两个分布也就是y的真实值分布和预测值分布。当两个分布越接近时，其交叉熵值也就越小。根据上面知识，也就转化为我们需要解决让预测值和真实值尽可能接近的问题，而这正与概率论数理统计中的最大似然分布一脉相承，进而目标转化为确定值的分布和求解最大似然估计问题。二分类问题表示分类任务中有两个类别，比如我们想判断一张图片是不是猫。也就是说，训练一个分类器，输入一张图片，用特征向量x表示，输出是不是猫用y=
复制链接

扫一扫