《动手深度学习》3.4 softmax回归

最新推荐文章于 2024-07-25 10:59:02 发布

abccd女士

最新推荐文章于 2024-07-25 10:59:02 发布

阅读量208

点赞数

分类专栏：动手深度学习文章标签：深度学习回归机器学习

本文链接：https://blog.csdn.net/qq_43797820/article/details/126909481

版权

20 篇文章 8 订阅

订阅专栏

问题预设：一个图像分类问题——输入是一个2x2的灰度图像，每个图像对应四个特征x1,x2,x3,x4。图像类别只有“猫”，“狗”和“鸡”三个。

例：三个预测类别——{猫、狗、鸡}，那么分类标签将是一个三维向量：其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”。

上式直接得到的输出总和不一定为1，甚至可能为负值，不符合"概率"的要求，所以对其进行规范化！
引入softmax函数：softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。
- 首先，对每个未规范化的预测求幂，确保非负。
- 求幂后的结果除以它们的总和，确保最终输出概率值总和为1。
最后，选择概率最大的一个作为分类预测结果(即最有可能的类别)：

单样本矢量化推导：针对样本xi获得yi
批量样本矢量化
- 给定一个小批量样本，其批量大小为 n，输入个数（特征数）为 d ，输出个数（类别数）为 q 。
- 则批量特征为 X∈R^n×d 。
- 权重和偏差参数与批量大小n无关(因为每个样本训练时使用的都是一个模型)，所以权重和偏差分别为 W∈R^d×q 和 b∈R^1×q 。
综上，softmax回归的矢量计算表达式为

对于分类问题，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。只需要概率最大的那个类别是该样本的真实类别就足够了。
例如，在图像分类的例子里，如果 =3 ，那么我们只需要 y₃⁽ⁱ⁾ 比其他两个预测值 y₁⁽ⁱ⁾ 和y₂⁽ⁱ⁾ 大就行了。一旦 y₃⁽ⁱ⁾ 值为0.6或更大，无论其他两个预测值为多少，类别预测均正确。
所以，再像线性回归那样使用平方损失函数 $\parallel \hat{y}_1^i-y_1^i \parallel^2/2$ ，就会过于严格。例如 y₁⁽ⁱ⁾ =y₂⁽ⁱ⁾ =0.2 比y₁⁽ⁱ⁾ =0,y₂⁽ⁱ⁾ =0.4 的平方损失要小很多，但其实两者都有同样正确的分类预测结果。