Rethinking：分类&回归

最新推荐文章于 2023-12-18 21:41:11 发布

Bear_Kai

最新推荐文章于 2023-12-18 21:41:11 发布

阅读量510

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Bear_Kai/article/details/105246395

版权

机器学习专栏收录该内容

13 篇文章 2 订阅

订阅专栏

前言

一般说到多分类问题，我们很自然地会采用softmax交叉熵损失，而谈到回归问题，我们可能会选择MSE这样的损失。但有一天，我们也许想知道二者之间是否真的就泾渭分明，能否把交叉熵损失用于回归任务，或者把MSE损失用于分类任务呢。这么想不是没有道理的，毕竟我们可以把多分类问题，看做是离散的回归问题，或者把回归问题，看做是无穷多类别下的分类问题。

讨论1

模型输出的logits，经过softmax归一化后，是采用交叉熵损失好，还是MSE损失好，原因是什么。
两者直观上的区别是，交叉熵损失仅关注预测概率向量的target值，MSE会关注所有non-target值。我们隐隐感觉到，对于分类问题，只用关注target处的元素值，所以交叉熵损失好。下面我们尝试进行更细致的分析：

[ 以最简单的二分类为例分析 ]
记logits为 $z_1,z_2]$ ，经softmax归一化后为 $a_1,a_2]$ ，对应标签 $y_1,y_2]$ （0,1取值），则：
$L_{mse}=(a_1-y_1)^2+(a_2-y_2)^2$ ，
$L_{ce}=y_1ln(a_1)+y_2ln(a_2)$ ，
$\partial{L_{mse}}/\partial{a_1}=2(a_1-y_1)$ ，
$\partial{L_{ce}}/\partial{a_1}=-y_1/a_1$ ，
可以看到，随着 $a_1$ 趋近于 $y_1$ ， $L_{mse}$ 对 $z_1$ 的梯度会被 $a_1-y_1)$ 这一项打折扣，而 $L_{ce}$ 的不会，因为 $y_1/a_1$ 最小为1。下面写出完整的梯度公式对比：
grad
可以看到，交叉熵损失对应的梯度非常简洁。
举个实例， $a_1,a_2]=[0.8, 0.2]$ ，
若 $y_1=0$ ，式(1)=0.512，式(2)=0.8
若 $y_1=1$ ，式(1)=-0.128，式(2)=-0.2
可以发现，交叉熵损失对应的梯度更利于快速收敛。

更新1

对于传统的机器学习任务，多直接求得闭式解，因此可以使用基于MSE的损失函数；对于梯度优化的方式，MSE损失可能存在局部最优导致收敛失败；
下图是基于MSE损失的一个示例图，对于一个给定的样本点，以softmax的前一线性层参数为横坐标（图中的x），得到的loss曲线如下图，可以看到，若参数初始值在右方的平坦区，且学习率较小，则损失无法收敛至左侧的global optimal。

更新2
若MSE/MAE也只关注target处的值，则有：

CE相对更关注难例样本，MSE相对更关注简单样本，MAE则一视同仁
MAE也和MSE一样，相比CE收敛速度和精度可能存在问题

以下截图来自腾讯优图Louis分享：
CE_vs_MAE_1 CE_vs_MAE_2
GCE_loss

结论1

对于分类问题，交叉熵损失和MSE都可以用，只不过交叉熵损失优于MSE

讨论2

对于一个向量，能否用（非）softmax的方式，将其归一化（元素和为1），然后基于交叉熵损失做回归任务，原因是什么。

[ 以二维向量回归为例分析 ]
对于 $G_1, G_2]$ 和 $z_1, z_2]$ ，分别softmax归一化得 $y_1, y_2]$ 和 $a_1, a_2]$ 。我们希望 $z_1, z_2]$ 趋近 $G_1, G_2]$ ，一个自然的思路是基于回归，即 $L_{mse}=(z_1-G_1)^2+(z_2-G_2)^2$ ，或者我们想试试能否基于交叉熵损失，此时转换为希望 $a_1, a_2]$ 趋向 $y_1, y_2]$ ， $L_{ce}=y_1ln(a_1) + y_2ln(a_2)$ 。对比两种思路：

看梯度，可以发现 $\partial{L_{mse}}/\partial{z_1}$ 的取值是实数范围，而 $\partial{L_{ce}}/\partial{z_1}$ 取值范围是 $[- 1, 1]$ ，后者限制了 $z$ 的更新速度。注意这里交叉熵虽然是做分类，但我们的最终目标仍是 $z \to G$ 。
$\partial{L_{mse}}/\partial{z_1}=2(z_1-G_1)$
$\partial{L_{ce}}/\partial{z_1}=a_1-y_1$
看优化目标，不同的 $G_1, G_2]$ 和 $z_1, z_2]$ ，softmax归一化操作后，可以存在 $y_1, y_2]=[a_1, a_2]$ ，即在 $z$ 和 $G$ 还存在误差时，交叉熵损失得到的梯度已然为0，此时交叉熵损失显然不适用了。举例， $G_1, G_2]=[1, 2]$ ， $z_1, z_2]=[2, 3]$ ，两者softmax归一化均为 $[1 / (1 + e), e / (1 + e)]$ 。
若采用非softmax的方式归一化，比如通过直接除以元素之和，或者比如向量元素先自行平方，再除以平方之和，均存在一些问题：a. 元素之和可能为0，需要近似处理；b.梯度中涉及对数ln()运算；c. 同样存在上述2中的优化目标不一致的问题，比如[1,2]和[2,4]，通过除以元素之和归一化，均得到[1/3, 2/3]。