cs231n学习之路：3. softmax求导

最新推荐文章于 2021-09-09 11:56:44 发布

咆哮的阿杰

最新推荐文章于 2021-09-09 11:56:44 发布

阅读量659

点赞数 1

分类专栏： cs231n

本文链接：https://blog.csdn.net/qq_34914551/article/details/99578870

版权

cs231n 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本篇博客承接上文，主要介绍softmax的求导和为啥在线性分类器的self.loss函数中，求导部分是那样写的。

原理

softmax公式：
$a_i = \frac{e^i}{ \sum\limits_{j} e^j}$

交叉熵公式：
$-\sum\limits_{k} y_k \times log(a_k)$

现在有一个线性分类器：
$\times W + b$
x是单样本的reshape之后的向量，这里的y则是one hot编码。
经过softmax：
$a = s o f t m a x (z)$
最后计算loss：
$-\sum_k y_k * log(a_k)$

我们想计算W的导数，用梯度下降法更新w，根据链式法则：
$\frac{\partial loss}{\partial w} = \frac{\partial loss}{\partial a} \times \frac{\partial a}{\partial z} \times \frac{\partial z}{\partial x}$

现在假想我们要处理的情况是单样本，y是one hot编码的label。
$\frac{\partial loss}{\partial z_i}=\sum_k \frac{\partial loss}{\partial a_k} \times \frac{\partial a_k}{ \partial z_i}$
k的范围是从1到类别数M，i是z的每一个单元输出，自然也是从1到M变化。
之所以对z的第i个单元的求导，会涉及到所有的a，是因为在softmax中，分母就是所有值的指数求和，因此 $a$ 的所有值都对 $a_i$ 有作用，自然， $z_i$ 的导数就应该包含loss对所有a的导数。
$\frac{\partial loss}{\partial a_k}=-\frac{y_k}{a_k}$
接下来就是求：
$\frac{\partial a_k}{\partial z_i}$
分两种情况， $i = k$ 或者 $\not= k$ （i不等于在markdown中怎么是这么显示的？）
当i=k:
$\frac{\partial a_i}{\partial z_i} = \frac{\partial(\frac{e^{z_i}}{\sum_j e^{z_j}}}{\partial z_i})$
注意因为j里面是有i的，分子分母都有 $z_i$ 。
$\frac{\partial a_i}{\partial z_i} = \frac{\partial(\frac{e^{z_i}}{\sum_j e^{z_j}}}{\partial z_i}) =\frac{e^{z_i} (\sum_j e^{z_j}) - e^{z_i} e^{z_j}}{(\sum_j e^{z_j})^2}=\frac{e^{z_i}}{\sum_j e^{z_j}} \times (1-\frac{e^{z_i}}{\sum_j e^{z_j}}) \\ =a_i(1-a_i)$

当 i != k时，分子中就没有和 $z_i$ 相关的项了。
$\frac{\partial a_k}{\partial z_i}=\frac{\partial \frac{e^{z_k}}{\sum_j e^{z_j}}}{\partial z_i} = - \frac{e^{z_i} e^{z_k}}{(\sum_j e^{z_j})^2} = -a_i a_k$

汇总之后：

$\frac{\partial loss}{\partial z_i}=\sum_k \frac{\partial loss}{\partial a_k} \times \frac{\partial a_k}{ \partial z_i} = \sum_{i=k} \frac{\partial loss}{\partial a_k}\frac{\partial a_k}{\partial z_i}+ \sum_{i \neq k} \frac{\partial loss}{\partial a_k}\frac{\partial a_k}{\partial z_i}\\ =y_i(a_i-1) + a_i \sum_{i \neq k} y_k= a_i\sum_j y_j - y_k$

因为y是one hot 编码，所以 $\sum_j y_j=1$ ，则：
$\frac{\partial loss}{\partial z_i}=a_i - y_i$
这就是softmax的导数了。
原来就是概率值a 减去在对应的类别的标签。即，如果 $z_i$ 对应是正例，则loss对它的导数就是softmax之后的值减1。

！！！这个时候在回顾上一篇博客求导数的位置。

  # 求导
        # softmax的求导是经过softmax得到的矩阵，在每个正例位置减一
        # z = x*w +b
        # a = softmax(z)
        # loss = -y*log(a)
        grad_z = softmax_scores
        grad_z[np.arange(batch_size),y] -= 1
        grad_w = x.T.dot(grad_z)
        grad_w /= batch_size # 梯度求平均
        grad_w += reg*self.W

grad_z就是求loss对z的求导，它等于softmax_scores，即公式里面的a，然后在正例的位置减1.
w的导数按照链式法则，乘上去就行了。根据链式法则，代码这里：

grad_w = x.T.dot(grad_z)

按照正常顺序，应该写为

grad_z * x

只因为我们推到是考虑单样本的情况，如果是多样本的情况，grad_z实质上是 $a^T$

$a^T \times x = x^T \times a$

咆哮的阿杰

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
cs231n学习之路：3. softmax求导

本篇博客承接上文，主要介绍softmax的求导和为啥在线性分类器的self.loss函数中，求导部分是那样写的。原理softmax公式：ai=ei∑jeja_i = \frac{e^i}{ \sum\limits_{j} e^j} ai=j∑ejei交叉熵公式：loss=−∑kyk×log(ak)loss = -\sum\limits_{k} y_k \times log(a_k)...
复制链接

扫一扫

专栏目录