《动手学深度学习 Pytorch版》 3.4 softmax回归

最新推荐文章于 2024-09-25 20:32:29 发布

AncilunKiang

最新推荐文章于 2024-09-25 20:32:29 发布

阅读量89

点赞数 2

分类专栏：《动手学深度学习 Pytorch版》学习笔记文章标签：深度学习 pytorch 回归

本文链接：https://blog.csdn.net/qq_43941037/article/details/132116200

版权

《动手学深度学习 Pytorch版》学习笔记专栏收录该内容

65 篇文章 31 订阅

订阅专栏

3.4.1 分类问题

整节理论知识，详见书本。

3.4.2 网络架构

整节理论知识，详见书本。

3.4.3 全连接层的参数开销

整节理论知识，详见书本。

3.4.4 softmax运算

整节理论知识，详见书本。

3.4.5 小批量样本的向量化

整节理论知识，详见书本。

3.4.6 损失函数

整节理论知识，详见书本。

3.4.7 信息论基础

整节理论知识，详见书本。

以下为结合视频《“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”》对交叉熵的理解：

为什么香农要把信息量定义为 $-\log P(j)$ ？

香农如此定义当然并非一时兴起。

假设有一事件的概率为 $P$ ，该事件可拆分为两个小事件，这两个小事件的概率分别为 $P_1$ 和 $P_2$ 。那么显然 $P=P_1\times P_2$ 。

我们假设信息量为 $f (P (j))$ （自变量为概率），则为了保持量纲需要满足 $f(P)=f(P_1)+f(P_2)$ 。

为了满足以上两个式子，顺理成章的想到给 $f (P (j))$ 应该是对数运算，即 $f(P(j))=\log(P(j))$ 。

又为了满足概率越大信息量越小的直观感受，可在给对数运算取负值，至此即得出信息量的定义 $f(P(j))=-\log P(j)$ 。
何为熵？

熵的定义式如下：
$H(P)=\sum_j-P(j)\log P(j)$

显而易见， $熵=\sum_j概率\times信息量$ ，也就是说熵实际上就是事件信息量的期望。
什么是交叉熵？为什么交叉熵能当损失函数？

为了计量的是真实值与估计值之间的差距，在这里自然的使用真实值与估计值的信息量的均差，称之为 KL 散度：
$\begin{align} D_{KL}(y|\hat{y})&=\sum_{j=1}^q y_j(f(\hat{y}_j)-f(y_j))\\ &=\sum_{j=1}^q y_j((-\log\hat{y}_j)-(-\log y_j))\\ &=\sum_{j=1}^q y_j(-\log\hat{y}_j)-\sum_{j=1}^q y_j(-\log y_j)\\ &=交叉熵-熵 \end{align}$

由吉布斯不等式知，KL 散度的前项一定大于后向，即 $D_{KL}(y|\hat{y})\ge0$ 。

因此便可以取交叉熵作为真实值与估计值之间的差距，且最小化交叉熵即可最小化损失。

3.4.8 模型预测和评估

整节理论知识，详见书本。

练习

（1）我们可以更深入地探讨指数族与 softmax 之间的联系。

a. 计算 softmax 交叉熵损失 $l(\boldsymbol{y},\hat{\boldsymbol{y}})$ 的二阶导数。

b. 计算 $\mathrm{softmax}(\boldsymbol{o})$ 给出的分布方差，并与上面计算的二阶导数匹配。

a. 由 3.5.6 2 知道：
$\frac{\partial l(\boldsymbol{y},\hat{\boldsymbol{y}})}{\partial o_j}=\frac{\exp(o_j)}{\sum^q_{k=1}\exp(o_k)}-y_j=\mathrm{softmax}(\boldsymbol{o})_j-y_j$

则二阶导为：
$\begin{align} \frac{\partial^2 l(\boldsymbol{y},\hat{\boldsymbol{y}})}{\partial o_j^2}&=\frac{\partial \frac{\exp(o_j)}{\sum^q_{k=1}\exp(o_k)}-y_j}{\partial o_j}\\ &=\frac{\exp(o_j)\sum^q_{k=1}\exp(o_k)-\exp^2(o_j)}{(\sum^q_{k=1}\exp(o_k))^2}-0\\ &=\frac{\exp(o_j)}{\sum^q_{k=1}\exp(o_k)}(1-\frac{\exp(o_j)}{\sum^q_{k=1}\exp(o_k)})\\ &=\mathrm{softmax}(\boldsymbol{o})_j(1-\mathrm{softmax}(\boldsymbol{o})_j) \end{align}$

b.先求均值：
$\begin{align} \overline{\mathrm{softmax}(\boldsymbol{o})}&=\frac{1}{q}\sum^q_{j=1}\mathrm{softmax}(\boldsymbol{o})_j\\ &=\frac{1}{q}\sum^q_{j=1}\frac{\exp(o_j)}{\sum^q_{k=1}\exp(o_k)}\\ &=\frac{1}{q}\frac{\sum^q_{j=1}\exp(o_j)}{\sum^q_{k=1}\exp(o_k)}\\ &=\frac{1}{q} \end{align}$

方差为：
$\begin{align} \mathrm{V\ ar}(o)&=\frac{1}{q}\sum^q_{j=1}(\mathrm{softmax}(\boldsymbol{o})_j-\overline{\mathrm{softmax}(\boldsymbol{o})})^2\\ &=\frac{1}{q}\left[(\mathrm{softmax}(\boldsymbol{o})_1-\frac{1}{q})^2+(\mathrm{softmax}(\boldsymbol{o})_2-\frac{1}{q})^2+\dots+(\mathrm{softmax}(\boldsymbol{o})_q-\frac{1}{q})^2\right]\\ &=\frac{1}{q}(\frac{1}{q}+\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j-\frac{2}{q}\sum^q_{j=1}\mathrm{softmax}(\boldsymbol{o})_j)\\ &=\frac{1}{q}(\frac{1}{q}-\frac{2}{q}+\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j)\\ &=-\frac{1}{q^2}+\frac{1}{q}\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j \end{align}$

上式与二阶导数式匹配为：
$\begin{align} \mathrm{V\ ar}(o)&=-\frac{1}{q^2}+\frac{1}{q}\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j\\ &=-\frac{1}{q^2}-\frac{1}{q}(1-\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j)+\frac{1}{q}\\ &=-\frac{1}{q^2}-\frac{1}{q}(\sum^q_{j=1}\mathrm{softmax}(\boldsymbol{o})_j-\sum^q_{j=1}\mathrm{softmax}^2(\boldsymbol{o})_j)+\frac{1}{q}\\ &=-\frac{1}{q^2}-\frac{1}{q}\sum^q_{j=1}(\mathrm{softmax}(\boldsymbol{o})_j-\mathrm{softmax}^2(\boldsymbol{o})_j)+\frac{1}{q}\\ &=\frac{q-1}{q^2}-\frac{1}{q}\sum^q_{j=1}\frac{\partial^2 l(\boldsymbol{y},\hat{\boldsymbol{y}})}{\partial o_j^2}\\ \end{align}$

（2）假设我们有3个类别出现的的概率相等，即概率向量是 $\left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right)$ 。

a. 如果我们尝试为它设计二进制代码，有什么问题？

b. 请设计一个更好的代码。（提示：如果我们尝试为两个独立的观测结果编码会发生什么，如果我们为 $n$ 个观测值联合编码怎么办？）

a. 3不是2的幂，用两位二进制编码则会浪费一个编码，这样后面就会很麻烦。

b. 如 3.4.1 所述，可使用独热编码，即分别使用 100、010 和 001 代表上述三个类别。

（3）softmax 是对上面介绍的映射的误称（虽然深度学习领域很多人都使用这个名字）。真正的 softmax 被定义为 $\mathrm{ReakSiftMax}(a,b)=\log(\exp(a)+\exp(b))$ 。

a. 证明 $\mathrm{ReakSiftMax}(a,b)>\max(a,b)$

b. 证明 $\lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)>\max(a,b)$ 成立，前提是 $\lambda>0$

c. 证明对于 $\lambda\to\infty$ ，有 $\lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)\to\max(a,b)$ 。

d. sofrmax 会是什么样子？

e. 将其扩展到两个以上的数字。

a. $\mathrm{ReakSiftMax}(a,b)=\log(\exp(a)+\exp(b))>\log(\exp(\max(a,b)))=\max(a,b)$

b. 若 $\lambda>0$ 则：
$\begin{align} \lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)=\lambda^{-1}\log(\exp(\lambda a)+\exp(\lambda b))>\lambda^{-1}\log(\exp(\max(\lambda a,\lambda b)))&=\lambda^{-1}\max(\lambda a,\lambda b)\\ &=\lambda^{-1}\lambda\max(a,b)\\ &=\max(a,b) \end{align}$

若 $\lambda<0$ 则：
$\begin{align} \lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)=\lambda^{-1}\log(\exp(\lambda a)+\exp(\lambda b))<\lambda^{-1}\log(\exp(\min(\lambda a,\lambda b)))&=\lambda^{-1}\min(\lambda a,\lambda b)\\ &=\lambda^{-1}\lambda\max(a,b)\\ &=\max(a,b) \end{align}$

c. 若 $a\ne b$ ，则：
$\lim_{\lambda\to\infty}\exp(\max(\lambda a,\lambda b))\gg\lim_{\lambda\to\infty}\exp(\min(\lambda a,\lambda b))$

故：
$\begin{align} \lim_{\lambda\to\infty}\lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)&=\lim_{\lambda\to\infty}\lambda^{-1}\log(\exp(\lambda a)+\exp(\lambda b))\\ &=\lim_{\lambda\to\infty}\lambda^{-1}\log(\exp(\max(\lambda a,\lambda b)))\\ &=\lim_{\lambda\to\infty}\lambda^{-1}\max(\lambda a,\lambda b)\\ &=\lim_{\lambda\to\infty}\lambda^{-1}\lambda \max(a,b)\\ &=\max(a,b) \end{align}$

若 $a = b$ ，则：
$\begin{align} \lim_{\lambda\to\infty}\lambda^{-1}\mathrm{ReakSiftMax}(\lambda a,\lambda b)&=\lim_{\lambda\to\infty}\lambda^{-1}\log(\exp(\lambda a)+\exp(\lambda b))\\ &=\lim_{\lambda\to\infty}\lambda^{-1}\log(2\exp(\max(\lambda a,\lambda b)))\\ &=\lim_{\lambda\to\infty}\lambda^{-1}[\max(\lambda a,\lambda b)+\log2]\\ &=\lim_{\lambda\to\infty}[\lambda^{-1}\lambda \max(a,b)+\lambda^{-1}\log2]\\ &=\max(a,b)+0\\ &=\max(a,b) \end{align}$

d. $\mathrm{softmin}(\boldsymbol{o})_j=\mathrm{softmax}(-\boldsymbol{o})_j$ ，故softmin 长这个样子：
$\mathrm{softmin}(\boldsymbol{o})_j=\frac{\exp(-o_j)}{\sum^q_{k=1}\exp(-o_k)}$