Softmax回归（四）

最新推荐文章于 2024-08-06 18:40:42 发布

Rendy_

最新推荐文章于 2024-08-06 18:40:42 发布

阅读量973

点赞数 11

分类专栏：动手学深度学习pytorch 文章标签：回归人工智能 pytorch 机器学习深度学习 python

本文链接：https://blog.csdn.net/m0_56266038/article/details/140733782

版权

动手学深度学习pytorch 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

Softmax回归
实现

写在前面:
线性回归见前文: 线性回归与实现（三）
公式符号详见: 论文数学公式编辑
参考书：动手学深度学习

Softmax回归

1. 分类问题

在线性回归中，我们的得到结果的是连续值。分类问题需要我们求得样本所属的类别，也就是离散值。Softmax回归看名字就知道它是回归算法。但是Softmax回归用于分类。

为什么回归算法做分类? 它是怎么做的？

它不直接求类别，而是求样本对应每个类别的概率，概率就是连续值。我们选定最大概率类别为其预测类别。即Softmax函数给出的输出向量为“各类别在给定 $\mathbf{x}$ 时的条件概率”。所以Softmax是回归算法，但是用于分类。

PS：这种计算概率的方式得到的是“软性”类别。直接得到类别的是“硬性”类别。

2. 网络架构

为了估算每个类别对应的概率，需采用多输出模型，每个类对应一个输出。假设有4个特征 $x$ ，3个类别 $o$ 。共需4 * 3 = 12个权重 $w$ ，3个标量来表示偏置 $b$ 。
$\begin{gathered} o_{1} =x_1w_{11}+x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1, \\ o_{2}=x_1w_{21}+x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2 \\ o_{3}=x_1w_{31}+x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3. \end{gathered} \tag{1}$

与线性回归一样，softmax回归也是一个单层神经网络。由于计算每个输出 $o_i$ 取决于所有输入 $x_1,x_2, x_3$ ，所以softmax回归的输出层也是全连接层。向量形式表达为:

$\mathbf{o}=\mathbf{Wx}+\mathbf{b}\tag{2}$ 在这里插入图片描述

3. softmax运算

看了上面的网络架构，我们知道这不就是多输出的线性神经网络嘛。而我们文首就说了，我们要的是概率。线性网络不仅输出有可能为负值，而且加和也不为1。

Softmax运算目的就是得到类别概率，即把网络输出变为正值，而且加和为1，还可导（用于梯度下降）。算式如下：
$\hat{\mathbf{y}}=\mathrm{softmax}(\mathbf{o})\quad\text{其中}\quad\hat{y}_j=\frac{\exp(o_j)}{\sum_k\exp(o_k)} \tag{3}$

那么现在我们就得到了满足非负和一的输出:

$\sum_{j} \hat{y}_j = 1 \quad 且 \quad 0 \le \hat{y}_j \le 1 \tag{4}$

因此， $\hat{\mathbf{y}}$ 可以视为一个正确的概率分布。

假设我们读取了一个批量的样本 $\mathbf{X}$ ，softmax回归的矢量计算表达式为：
$\begin{aligned}&\mathbf{O}=\mathbf{X}\mathbf{W}+\mathbf{b},\\&\hat{\mathbf{Y}}=\mathrm{softmax}(\mathbf{O}).\end{aligned} \tag{5}$
延续上面的假设：假设有4个特征 $x$ ，3个类别 $o$ 。5个样本。
在这里插入图片描述

4. 损失函数

在我们的例子中，标签 $y$ 将是一个三维向量 $o_1, o_2, o_3)$ ，正确类别的概率为1，其余为0。比如假设某样本正确类别为第一类，那么它的真实标签为 $(1, 0, 0)$ 。Softmax函数给出的输出向量为“各类别在给定 $\mathbf{x}$ 时的条件概率”，如 $(0.7, 0.1, 0.2)$ 。

我们可以衡量给定数据集时我们得到实际值的概率：
$P(\mathbf{Y}\mid\mathbf{X})=\prod_{i=1}^nP(\mathbf{y}^{(i)}\mid\mathbf{x}^{(i)}). \tag{6}$

根据最大似然估计，我们最大化 $P(\mathbf{Y}\mid\mathbf{X})$ ，相当于最小化负对数似然：
$-\log P(\mathbf{Y}\mid\mathbf{X})=\sum_{i=1}^n-\log P(\mathbf{y}^{(i)}\mid\mathbf{x}^{(i)})=\sum_{i=1}^nl(\mathbf{y}^{(i)},\hat{\mathbf{y}}^{(i)}),\tag{7}$

将公式（3）带入上式，得：
$l(\mathbf{y},\hat{\mathbf{y}})=-\sum_{j=1}^qy_j\log\hat{y}_j.\tag{8}$
这个损失函数被为交叉熵损失函数。
从信息论上通俗的讲就是 $\mathbf{y},\hat{\mathbf{y}}$ 越相近交叉熵越小，无疑是可以用作损失函数的。详见信息论。

实现

https://zh-v2.d2l.ai/chapter_linear-networks/softmax-regression-scratch.html
https://zh-v2.d2l.ai/chapter_linear-networks/softmax-regression-concise.html