【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】Softmax回归

Don＇t move

已于 2024-06-09 01:01:41 修改

阅读量973

点赞数 27

分类专栏：邱锡鹏-神经网络与深度学习文章标签：机器学习

于 2024-05-29 20:07:01 首次发布

本文链接：https://blog.csdn.net/qq_48520962/article/details/139304648

版权

邱锡鹏-神经网络与深度学习专栏收录该内容

22 篇文章 4 订阅

订阅专栏

Softmax回归主要用于解决多类问题（类别数>2），可以看作Logistic回归在多分类问题上的一种扩展

Softmax函数

对于K个标量 $x_1,x_2,\cdots,x_K$ ：
$softmax(x_K)=\frac{\exp(x_K)}{\sum_{i=1}^{K}\exp(x_i)}$
其中，指数项>0，分母>=分子，因此结果必定属于区间 $(0, 1)$ ，且 $\sum_Ksoftmax(x_K)=1$ 。也就是说，K个标量在通过softmax函数之后，可以转换成具有K个取值的分布，每个取值可以看作对应的打分，标量值越大对应的打分越高。
在这里插入图片描述

Softmax回归

目标类别 $y = c$ 的条件概率为：
$\begin{aligned} p_\theta(y=c\mid x) &=softmax(w_c^Tx)\\ &=\frac{\exp(w^T_cx)}{\sum_{c'=1}^C\exp(w^T_{c'}x)} \end{aligned}$
用向量表示：
$\begin{aligned} \hat{y} &=softmax(W^Tx)\\ &=\frac{\exp(W^Tx)}{1_C^T\exp(W^Tx)} \end{aligned}$
其中， $\hat{y}\in\mathbb{R}^C$ （C维向量）为所有类别的预测条件概率组成的向量， $W\in\mathbb{R}^{D\times C}$ 为所有判别函数对应的权重组成的向量， $1_C^T$ 为C维的全为1的向量，与后项内积来表示后项所有元素的加和。

交叉熵损失：
$H(p_r,p_\theta)=-\sum_{y=1}^Cp_r(y\mid x)\log p_\theta(y\mid x)$
这里需要与logistic回归区别一下，在使用logistic回归解决多分类问题时，主要取决于不同类别之间是否互斥，等同于将多分类问题转换成了多次二分类问题。而softmax回归可以同时计算多个类别的打分，取得分最高为最终的分类。真实概率 $p_r$ 和预测概率负对数（熵、自信息量）如下所示：
在这里插入图片描述

最终要令二者内积后的交叉熵最小，同时根据熵（自信息）的概念，当真实概率最大时对应的自信息量最小，这也就意味着当熵最小时对应的真实概率越大，越可能是最终的预测结果。如上图中，类别为1的熵 $-\log p_\theta(y=1\mid x)\rightarrow 0$ ，则对应 $p_r(y=1\mid x)\rightarrow max$
用向量来表示交叉熵损失：
$H(y,\hat{y})=-y^T\log\hat{y},\ \ \ \ y=[I(1=c),I(2=c),\cdots,I(C=c)]^T$
其中，y表示真实的分类，一般是one-hot向量，只有对应预测分类为1，其他地方为0。举例来说，若一个三分类问题，y属于分类3，则对应的 $y=\begin{bmatrix}0&0&1\end{bmatrix}^T$ ，若预测概率 $\hat{y}=\begin{bmatrix}0.3&0.3&0.4\end{bmatrix}^T$ 则对应的交叉熵损失为：
$\begin{aligned} \mathcal{L}(\theta)=H(y,\hat{y}) &=-\begin{bmatrix}0&0&1\end{bmatrix}\log\begin{bmatrix}0.3\\0.3\\0.4\end{bmatrix}\\ &=-\log0.4 \end{aligned}$
实际上也对应了正确类别对应的对数似然。
下面就可以对模型的参数进行优化了，定义模型的学习准则为：
$\mathcal{R}(W)=-\frac{1}{N}\sum_{n=1}^N(y^{(n)})^T\log\hat{y}^{(n)}+\frac{1}{2}\parallel W\parallel^2$
在求梯度之前先对softmax函数求导：
$\begin{aligned} \frac{\partial softmax(x)}{\partial x} &=\frac{\partial e^x}{\partial x}\frac{1}{1_K^Te^x}+e^x\frac{\partial}{\partial x}(\frac{1}{1_K^Te^x})\\ &=diag(e^x)\frac{1}{1_K^Te^x}-e^x\frac{1}{(1_K^Te^x)^2}\frac{\partial(1_K^Te^x)}{\partial x}\\ &=diag(softmax(x))-\frac{e^x}{1_K^Te^x}\frac{(e^x)^T}{1_K^Te^x}\\ &=diag(softmax(x))-softmax(x)softmax(x)^T \end{aligned}$
diag表示对角矩阵，因为 $x=\begin{bmatrix}x^{(1)}\\ \vdots \\ x^{(K)}\end{bmatrix},e^x=\begin{bmatrix}e^{x^{(1)}}\\ \vdots \\ e^{x^{(K)}}\end{bmatrix}$ ，
$\begin{aligned} \frac{\partial e^x}{\partial x} &=\frac{\partial\begin{bmatrix}e^{x^{(1)}}\\ \vdots \\ e^{x^{(K)}}\end{bmatrix}}{\partial x} =\begin{bmatrix}\frac{\partial e^{x^{(1)}}}{\partial x}\\ \vdots \\ \frac{\partial e^{x^{(K)}}}{\partial x}\end{bmatrix}\\ \\ 其中，\\ \frac{\partial e^{x^{(1)}}}{\partial x} &=\begin{bmatrix}\frac{\partial e^{x^{(1)}}}{\partial x^{(1)}}\\ \vdots \\\frac{\partial e^{x^{(1)}}}{\partial x^{(K)}}\end{bmatrix} =\begin{bmatrix}e^{x^{(1)}}\\0\\\vdots\\0\end{bmatrix}\\ 因此,\\ \frac{\partial e^x}{\partial x} &=\begin{bmatrix} e^{x^{(1)}}&0&\cdots&0\\ 0&e^{x^{(2)}}&\cdots&0\\ \vdots&\vdots&&\vdots\\ 0&0&\cdots&e^{x^{(K)}} \end{bmatrix} =diag(e^{x}) \end{aligned}$
此外， $\frac{\partial(1_K^Te^x)}{\partial x}=1_K^Tdiag(e^x)=(e^x)^T$ ，且 $1_K^Te^x)^T=(e^x)^T1_K=1_K^Te^x$
然后记 $z=W^Tx=\begin{bmatrix}w_1^Tx&\cdots&w_c^Tx\end{bmatrix}$ ，则：
$\frac{\partial z}{\partial w_c}=\begin{bmatrix}\frac{\partial w_1^Tx}{\partial w_c}&\cdots&\frac{\partial w_c^T}{\partial w_c}\end{bmatrix}=\begin{bmatrix}0&0&\cdots&x&\cdots&0\end{bmatrix}\triangleq\mathbb{M}_c(x)$
对于单个样本的梯度：
$\begin{aligned} \frac{\partial\mathcal{L}^{(n)}(W)}{\partial W} &=-\frac{\partial}{\partial w_c}((y^{(n)})^T\log\hat{y}^{(n)})\\ &=-\frac{\partial\log\hat{y}^{(n)}}{\partial w_c}y^{(n)}\\ &=-\frac{\partial\log\hat{y}^{(n)}}{\partial\hat{y}^{(n)}}\frac{\partial\hat{y}^{(n)}}{\partial z}\frac{\partial z}{\partial w_c^T}y^{(n)}\\ &=-\mathbb{M}_c(x^{(n)})(diag(\hat{y}^{(n)})-\hat{y}^{(n)}(\hat{y}^{(n)})^T)(diag(\hat{y}^{(n)})^{-1})y^{(n)}\\ &=-\mathbb{M}_c(x^{(n)})(I-\hat{y}^{(n)}(\hat{y}^{(n)})^T(diag(\hat{y}^{(n)})^{-1}))y^{(n)}\\ &=-\mathbb{M}_c(x^{(n)})(y^{(n)}-\hat{y}^{(n)}1_C^Ty^{(n)})\\ &=-\mathbb{M}_c(x^{(n)})(y^{(n)}-\hat{y}^{(n)})\\ &=-x^{(n)}[y^{(n)}-\hat{y}^{(n)}]_c \end{aligned}$
梯度下降过程：
$W_t+1\leftarrow W_t+\alpha(\frac{1}{N}\sum_{n=1}^Nx^{(n)}(y^{(n)}-\hat{y}^{(n)})^T)$