softmax回归：原理与应用-CSDN博客

本文链接：https://blog.csdn.net/iloveyousunna/article/details/79206541

softmax回归是逻辑回归的扩展，常用于多分类问题。它存在参数冗余，但通过权重衰减可以解决这一问题，确保损失函数严格凸，优化算法能收敛到全局最优解。在类别互斥的情况下，如音乐分类，softmax回归优于k个独立的二元分类器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

softmax回归

假设函数：

$'$

是逻辑回归中sigmoid的扩展。

损失函数为：

$'$

但是softmax有一个特点：它有一个“冗余”的参数集。例如我们从每个theta向量中减去一个向量。

$'$

换句话说，softmax模型被过度参数化了，对于任意一个用于拟合数据的假设函数，可以求出多组参数值，这些参数得到的是完全相同的假设函数。

进一步而言，如果(theta1, theta2, ..., thetak)是代价函数的极小值点，那么(theta1 - a, theta2 - a, ..., thetak - a)同样也是它的极小值点，所以使损失函数最小化的解不是唯一的。（有趣的是，由于损失函数仍然是一个凸函数，因此梯度下降时不会遇到局部最优解的问题，但是Hessian矩阵是奇异的/不可逆的，这会直接导致采用牛顿法优化就遇到数值计算问题）。

我们可以令a = theta1,即将theta1替换为零向量，我们就只需要优化k-1个theta分量。

但在实际应用中，为了使算法实现更简单清楚，往往不这么做，而是加入权重衰减来解决softmax回归的参数冗余带来的问题。

$'$

有了这个权重衰减(lambda > 0)，代价函数就变成了严格的凸函数，这样就可以保证得到唯一解了。此时Hessian矩阵变为可逆矩阵，并且因为损失函数是凸函数，各种优化算法可以保证收敛到全局最优解。

softmax回归 vs k个二元分类器

如果你在开发一个音乐分类的应用，需要对k种类型的音乐进行识别，那么是选择使用 softmax 分类器呢，还是使用 logistic 回归算法建立 k 个独立的二元分类器呢？

这一选择取决于你的类别之间是否互斥，例如，如果你有四个类别的音乐，分别为：古典音乐、乡村音乐、摇滚乐和爵士乐，那么你可以假设每个训练样本只会被打上一个标签（即：一首歌只能属于这四种音乐类型的其中一种），此时你应该使用类别数 $k = 4$ 的softmax回归。（如果在你的数据集中，有的歌曲不属于以上四类的其中任何一类，那么你可以添加一个“其他类”，并将类别数 $k$ 设为5。）

如果你的四个类别如下：人声音乐、舞曲、影视原声、流行歌曲，那么这些类别之间并不是互斥的。例如：一首歌曲可以来源于影视原声，同时也包含人声。这种情况下，使用4个二分类的 logistic 回归分类器更为合适。这样，对于每个新的音乐作品，我们的算法可以分别判断它是否属于各个类别。