动手学习机器学习（Day3-1）

m0_63453494

已于 2023-04-26 21:15:23 修改

阅读量339

点赞数

分类专栏：动手学习机器学习文章标签：机器学习学习人工智能

于 2023-04-10 20:14:04 首次发布

本文链接：https://blog.csdn.net/m0_63453494/article/details/130068722

版权

动手学习机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

softmax回归

分类问题：

从一个图像分类问题开始。假设每次输入是一个2×2的灰度图像。我们可以用一个标量表示每个像素值，每个图像对应四个特征 $x_1,x_2,x_3,x_4$ 。此外，假设每个图像属于类别“猫”“鸡”和“狗”中的一个。
如何表示标签？
采用独热编码（one-hot encoding）。标签 $y$ 将是一个三维向量，其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”

网络架构

为了估计所有可能类别的条件概率，需要一个有多个输出的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数（affine function）。每个输出对应于它自己的仿射函数。在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的 $w$ ）， 3个标量来表示偏置（带下标的 $b$ ）。下面我们为每个输入计算三个未规范化的预测（logit）： $o_1,o_2,o_3$
$o_1=x_1w_{11}+x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1$
$o_2=x_1w_{21}+x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2$
$o_3=x_1w_{31}+x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3$

与线性回归一样，softmax回归也是一个单层神经网络。由于计算每个输出 $o_1,o_2,o_3$ 取决于所有输入 $x_1,x_2,x_3,x_4$ ，所以softmax回归的输出层也是全连接层。
![[Pasted image 20230409205425.png]]

将上面的公式采用向量表示：
$\mathbf{o}=\mathbf{Wx}+\mathbf{b}$
$d im (o) = 1 * q$
$d im (W) = q * d$
$d im (x) = d * 1$
$d im (b) = q * 1$
对于批量样本，采用以下方式表示：
$\mathbf{O}=\mathbf{XW}+\mathbf{b}$
对于各个向量的维度：（n个样本量，d个特征，q个分类）
$dim(\mathbf{O})=n*q$
$d im (W) = d * q$
$dim(\mathbf{X})=n*d$
$d im (b) = 1 * q$
![[capture-2023-04-09-21-34-55.jpg]]

全连接层的参数开销

对于任何具有 $d$ 个输入和 $q$ 个输出的全连接层，参数开销为 $O$ ( $d q$ )，这个数字在实践中可能高得令人望而却步。幸运的是，将 $d$ 个输入转换为 $q$ 个输出的成本可以减少到 $O$ ( $\frac{dq}{n}$ )，其中超参数 $n$ 可以由我们灵活指定，以在实际应用中平衡参数节约和模型有效性
（这部分暂时没搞懂）

softmax运算

为了得到预测结果，我们将设置一个阈值，如选择具有最大概率的标签。显然，我们希望模型的输出结果 $\hat{y_j}$ （ $\hat{y_j}$ 来自 $\hat{o_j}$ ）是类 $j$ 的概率，都是对于上面计算的未规范化的 $o$ ，可以发现

$o$ 的总和不为1
可能存在 $o_i$ 为负数
因此，衍生出了softmax函数
$\hat{y}=softmax(\mathbf{o})$
$\hat{y}_j=\frac{\exp(o_j)}{\sum_k\exp(o_k)}$
根据函数，可以发现，通过对参数就 $e$ 的幂，让输出为非负，分母等于所有 $o_k$ 求幂后的总和，保证了输出的概率总和为1。显然，softmax运算不改变未规范化的 $o$ 之间的大小关系。因此
$\arg\max_j\hat{y}_j=\arg\max_j\hat{o}_j$
对于小批量样本：
$\mathbf{O}=\mathbf{XW}+\mathbf{b}$
$\hat{\mathbf{Y}}=softmax(\mathbf{O})$
$dim(\hat{\mathbf{Y}})=n*q$

损失函数（极大似然估计）

如果采用MSE计算损失：
模型1

预测	真实	是否正确
0.3 0.3 0.4	0 0 1（猪）	正确
0.3 0.4 0.4	0 1 0（狗）	正确
0.1 0.2 0.7	1 0 0 (猫)	错误

模型1对于样本1和样本2以非常微弱的优势判断正确，对于样本3的判断则彻底错误。
模型2：

预测	真实	是否正确
0.1 0.2 0.7	0 0 1（猪）	正确
0.1 0.7 0.2	0 1 0 (狗)	正确
0.3 0.4 0.3	1 0 0 (猫)	错误

模型2对于样本1和样本2判断非常准确，对于样本3判断错误，但是相对来说没有错得太离谱。

如果采用均方误差
模型1：
![[Pasted image 20230409221607.png]]
对所有样本的loss求平均：
![[Pasted image 20230409221617.png]]

模型2：
![[Pasted image 20230409221634.png]]

对所有样本的loss求平均：
![[Pasted image 20230409221641.png]]
我们发现，MSE能够判断出来模型2优于模型1，那为什么不采样这种损失函数呢？主要原因是在分类问题中，使用sigmoid/softmx得到概率，配合MSE损失函数时，采用梯度下降法进行学习时，会出现模型一开始训练时，学习速率非常慢的情况（资料来自https://www.zhihu.com/tardis/bd/art/35709485?source_id=1001）

因此，采用极大似然估计法，对于整个数据集
$P(\mathbf{Y}|\mathbf{X})=\prod_{i=1}^nP(\mathbf{y}^i|\mathbf{x}^i)$

对于这个公式的理解：对于这个数据集 $\mathbf{X}$ ，含有n行的 $\mathbf{x}^i$ ，对于每个样本，都有一个人脑中的分类结果 $\mathbf{y}^i$ ，得到了整个样本集的分类结果 $\mathbf{Y}$ ，这个结果是我们期望得到的正确结果，但是对于一个模型而言，未必能得到如此准确的结果，因此，我们需要计算，在模型中，每个 $\mathbf{x}^i$ 条件下得到 $\mathbf{y}^i$ 的概率，对于整个样本集，就是对于 $\mathbf{X}$ 情况下，对得到正确结果 $\mathbf{Y}$ 的概率，如果概率越高，说明这个模型得到 $\mathbf{Y}$ 的概率越高，准确性越高
随后需要化简，根据极大似然估计法的思路，通过 $\log$ 的方式，将乘法化为加法：
$-\log{P(\mathbf{Y}|\mathbf{X})}=-\sum_{i=1}^n\log{P(\mathbf{y}^i|\mathbf{x}^i)}=\sum_{i=1}^n\ell(y^{(i)},\hat{y^{(i)}})$
所以损失函数为：
$\ell(y,\hat{y})=-\sum_{j=1}^qy_j\log{\hat{y}_j}$

对于 $y_j$ ，从 $j = 1$ 到 $q$ ，仅存在一个 $j$ 能使得 $y_j$ 为1，这个时候的 $j$ 就是人脑对应的分类结果，遍历整个求和过程，只有一项不为0，对于 $\hat{y}_j$ ，由于是概率，是一个小于1的数字，因此取对数后小于0
相当于

$\ell(y,\hat{y})=-y_j\log{\hat{y}_j}$
这里的 $y_j=1$
$\ell(y,\hat{y})=-\log{\hat{y}_j}$

接下来，将Loss对O求导：
由于O是一个矩阵，所以把它分为 $o_1,o_2,...,o_n$ 分开计算
为了方便表示，我们假设，分类的类别有两类，猫和狗，对于一个样本，它预测的未标准化的结果是 $o_1,o_2$ ，也就是在 $o_1,o_2$ 分别有一个数值，表示预测的结果，随后经过标准化，得到 $\hat{y}_1,\hat{y}_2$ ，对于该样本，我们假设它表示的是猫，即 $y_1=1,y_2=0$ ，接下来我们进行详细计算：
$\ell(y,\hat{y})=-\log{\hat{y}_1}$
$\hat{y}_1=\frac{\exp(o_1)}{\sum_k\exp(o_k)}$
$\frac{\partial\ell}{\partial{o}_1}=\frac{\partial\ell}{\partial{\hat{y}}_1}\frac{\partial{\hat{y}_1}}{\partial{o}_1}=-\frac{1}{\hat{y}_1}(-(\hat{y}_1)^2+\hat{y}_1)=\hat{y}_1-1=\hat{y}_1-y_1=softmax(o_1)-y_1$
$\frac{\partial\ell}{\partial{o}_2}=\frac{\partial\ell}{\partial{\hat{y}}_1}\frac{\partial{\hat{y}_1}}{\partial{o}_2}=-\frac{1}{\hat{y}_1}(-\hat{y}_1\hat{y}_2)=\hat{y}_2=\hat{y}_2-0=\hat{y}_2-y_2=softmax(o_2)-y_2$
因此对于任意的 $o_i$
$\frac{\partial\ell}{\partial{o}_i}=softmax(o_i)-y_i$
我们分开计算了 $o$ 的求导，接下来，我们进行整合
$\mathbf{O}=\left[ \begin{array}{} \mathbf{o}_1 & \mathbf{o}_2 \end{array} \right]$
$\frac{\partial\ell}{\partial{\mathbf{O}}}=\left[ \begin{array}{} \frac{\partial\ell}{\partial{\mathbf{o}_1}} & \frac{\partial\ell}{\partial{\mathbf{o}_2}} \end{array} \right]= \left[ \begin{array}{} \hat{y}_1-y_1 & \hat{y}_2-y_2 \end{array} \right]=\left[ \begin{array}{} softmax(o_1)-y_1 & softmax(o_2)-y_2 \end{array} \right]$

m0_63453494

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学习机器学习（Day3-1）

从一个图像分类问题开始。假设每次输入是一个2×2的灰度图像。我们可以用一个标量表示每个像素值，每个图像对应四个特征x1x2x3x4。此外，假设每个图像属于类别“猫”“鸡”和“狗”中的一个。如何表示标签？采用独热编码（one-hot encoding）。标签y将是一个三维向量，其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”
复制链接

扫一扫