分类中交叉熵损失函数的推导

最新推荐文章于 2023-11-29 16:41:14 发布

Hunter_pcx

最新推荐文章于 2023-11-29 16:41:14 发布

阅读量1.9k

点赞数

分类专栏：算法相关文章标签： 1024程序员节

本文链接：https://blog.csdn.net/Hunter_pcx/article/details/120942285

版权

算法相关专栏收录该内容

14 篇文章 1 订阅

订阅专栏

一般我们在做分类任务中会在模型的最后加入一层softmax去预测样本对于每个类别的概率，然后通过交叉熵损失函数去计算loss，但是交叉熵损失函数为什么能让模型work呢？为什么计算交叉熵损失函数时要把样本标签变成一个one-hot向量呢？下面我们就来讨论一下。

首先我们来描述一下问题： $X=\left \{ (x_i,y_i) \right \}_{1}^{N}$ 表示真实分布中N个样本， $x_i$ 表示其中的一个随机变量， $y_i\epsilon \left \{ 1,2,... ,M\right \}$ 表示随机变量 $x_i$ 的类别标签，M表示总共有M个类别，求新采样的样本 $x_{N+1}$ 属于哪一个类别？

对于这个分类问题，我们一般希望构建一个概率模型，这个概率模型会预测样本在M个类别上的概率，那么M个概率中最大的那个类别标签就是样本的标签。假设 $q_\phi (c|x)$ 就是我们要构建的概率模型， $\phi$ 为模型中需要学习的参数， $x$ 为输入的样本， $c\epsilon \left \{1,2,3,...,M \right \}$ 为类别标签变量，再假设 $p(c|x)$ 为样本 $x$ 在所有类别标签上的真实条件概率分布。下面我们希望概率模型 $q_\phi (c|x)$ 尽可能的与真实分布 $p(c|x)$ 接近，很容易想到KL散度就可以刻画这两个分布的接近程度：

$D_{KL}(p(c|x)||q_\phi (c|x))=E_{p(c|x)}p(c|x)-E_{p(c|x)}q_\phi (c|x)$

由于真实分布是恒定的，所以右边第一项是一个常数，最小化KL散度相当于最小化右边第二项，所以目标函数变为：

$L_\phi (x)=-E_{p(c|x)}q_\phi (c|x)$

由于变量c是离散的，所以目标函数展开有:

$L_\phi (x)=-\sum _{c=1}^{M}p(c|x)q_\phi (c|x)$

这就是我们大名鼎鼎的交叉熵损失函数了，下面对这个损失函数进行一下说明。求和里面第一项 $p(c|x)$ 表示样本 $x$ 属于 $c$ 类别的真实概率，在真实样本-标签中，如果 $x_i$ 属于 $y_i$ 类别，那么该样本对应的 $y_i$ 类别概率为1，即 $p(y_i|x_i)=1$ ，在其他类别上的概率为0，所以计算交叉熵损失函数时要把样本标签变成一个one-hot向量，为1的分量表示该样本属于该类别的概率为1，否则为0。最后最小化上面的目标函数，就可以求出我们模型的参数了。

Hunter_pcx

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分类中交叉熵损失函数的推导

一般我们在做分类任务中会在模型的最后加入一层softmax去预测样本对于每个类别的概率，然后通过交叉熵损失函数去计算loss，但是交叉熵损失函数为什么能让模型work呢？为什么计算交叉熵损失函数时要把样本标签变成一个one-hot向量呢？下面我们就来讨论一下。首先我们来描述一下问题：表示真实分布中N个样本，表示其中的一个随机变量，表示随机变量的类别标签，M表示总共有M个类别，求新采样的样本属于哪一个类别？对于这个分类问题，我们一般希望构建一个概率模型...
复制链接

扫一扫

专栏目录