【机器学习】——为什么softmax搭配cross entropy是解决分类问题的通用方案？

最新推荐文章于 2023-12-21 11:17:33 发布

努力学挖掘机的李某某

最新推荐文章于 2023-12-21 11:17:33 发布

阅读量984

点赞数 2

分类专栏：深度学习机器学习算法机器学习笔记文章标签：深度学习机器学习交叉熵 softmax 分类问题

本文链接：https://blog.csdn.net/qq_30911665/article/details/89390195

版权

众所周知，softmax+cross entropy是在线性模型、神经网络等模型中解决分类问题的通用方案，但是为什么选择这种方案呢？它相对于其他方案有什么优势？笔者一直也困惑不解，最近浏览了一些资料，有一些小小心得，希望大家指正~

损失函数：交叉熵Cross Entropy

我们可以从三个角度来理解cross entropy的物理意义

从实例上直观理解

我们首先来看Cross Entropy 的公式：
假设存在两个分布 $p$ 和 $q$ ， $p$ 为样本的真实分布， $q$ 为模型预测出的样本分布，则在给定的样本集 $X$ 上，交叉熵的计算方式为
$L_{CE}(p,q)=-\sum _{x\in X}p(x)logq(x)$
通常情况下在线性模型、神经网络等模型中，关于样本的真实分布可以用one-hot的编码来表示，比如男、女分别可以用[0,1]和[1,0]来表示，同样的，C种类别的样本可以用长度为C的向量来表示，且一个样本的表示向量中有且仅有一个维度为1，其余为0。那会造成什么后果呢？我们来看一个例子，假设一个样本的真实label为 $[0, 0, 0, 1, 0]$ ，预测的分布为 $[0.02, 0.02, 0.02, 0.9, 0.04]$ ，则交叉熵为：
$L_{CE}=-1*log0.9$
如果预测分布为 $[0.1, 0.5, 0.2, 0.1, 0.2]$ ,则交叉熵为：
$L_{CE}=-1*log0.1$
可以看出其实 $L_{CE}$ 只与label中1所对应下标的预测值有关，且该预测值越大， $L_{CE}$ 越小。
只要label中1所对应下标的预测值越接近1，则损失函数越小，这在直观上就是符合我们对于损失函数的预期。
，

交叉熵为什么比均方误差好

作为回归问题的常见损失函数，均方误差公式为 $loss_{MSE}(y,t)=\frac{1}{2}\sum_{i=1}^{n}(y_i - t_i)^2$ ，好像也可以用来计算分类问题的损失函数，那它为什么不适合分类问题呢？我们再来看一个例子假设一个样本的真实label为 $[0, 0, 0, 1, 0]$ ，预测的分布为 $D_1 =[0.1,0.1,0.1,0.6,0.1]$ ,预测分布 $D_2 =[0,0,0,0.6,0.4]$ ,此时 $loss_{MSE}D_1 < loss_{MSE}D_2$ ,也就是说对于 $loss_{MSE}$ 而言，即使与label中1所对应下标的预测值是正确的，其他项预测值的分布也会影响损失的大小，这不符合我们对于分类问题损失函数的预期。

似然估计的视角

我们知道，对于一个多分类问题，给定样本 $x$ ,它的似然函数可以表示为
$p(t|x)=\prod_{i=1}^{C}P(t_i|x)^{t_i}=\prod_{i=1}^{C}y_i^{t_i}$

最低0.47元/天解锁文章

努力学挖掘机的李某某

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
【机器学习】——为什么softmax搭配cross entropy是解决分类问题的通用方案？

众所周知，softmax+cross entropy是在线性模型、神经网络等模型中解决分类问题的通用方案，但是为什么选择这种方案呢？它相对于其他方案有什么优势？笔者一直也困惑不解，最近浏览了一些资料，有一些小小心得，希望大家指正~损失函数：交叉熵Cross Entropy我们可以从三个角度来理解cross entropy的物理意义从实例上直观理解我们首先来看Cross Entropy 的公...
复制链接

扫一扫