Softmax反向传播

最新推荐文章于 2023-09-11 22:20:50 发布

杭州草民

最新推荐文章于 2023-09-11 22:20:50 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/virtual_earth/article/details/90693524

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

softmax 公式：

假设有一个向量 $\textbf{x}$ ，其长度为, $x_{i}$ 表示 $\textbf{x}$ 中的第个元素，那么这个元素的softmax值为:

$y_{i}=\frac{e^{x_{i}}}{\sum{}_{j=1}^{k}e^{x_{j}}}$

Softmax反向传播

当j!=i时， $\frac{\partial l}{\partial x_{i}} =\sum_{j=0,j!=i}^{n}\frac{\partial l}{\partial y_{j}}\frac{\partial y_{j}}{\partial x_{i}}=\sum_{j=0,j!=i}^{n}\frac{\partial l}{\partial y_{j}}\frac{-e^{x_{i}}\cdot e^{x_{j}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}$

当j=i时， $\frac{\partial l}{\partial x_{i}} =\frac{\partial l}{\partial y_{i}}\frac{\partial y_{i}}{\partial x_{i}}=\frac{\partial l}{\partial y_{i}}\frac{e^{x_{i}}\sum{}_{k=0}^{n}e^{x_{k}}-e^{x_{i}}\cdot e^{x_{i}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}$

所以将上面两个式子加起来得到

$\frac{\partial l}{\partial x_{i}} =\sum_{j=0,j!=i}^{n}\frac{\partial l}{\partial y_{j}}\frac{\partial y_{j}}{\partial x_{i}}+\frac{\partial l}{\partial y_{i}}\frac{\partial y_{i}}{\partial x_{i}}=\sum_{j=0,j!=i}^{n}\frac{\partial l}{\partial y_{j}}\frac{-e^{x_{i}}\cdot e^{x_{j}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}+\frac{\partial l}{\partial y_{i}}\frac{e^{x_{i}}\sum{}_{k=0}^{n}e^{x_{k}}-e^{x_{i}}\cdot e^{x_{i}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}=\sum_{j=0}^{n}\frac{\partial l}{\partial y_{j}}\frac{-e^{x_{i}}\cdot e^{x_{j}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}+\frac{\partial l}{\partial y_{i}}\frac{e^{x_{i}}\sum{}_{k=0}^{n}e^{x_{k}}}{\sum{}_{k=0}^{n}e^{x_{k}}\cdot\sum{}_{k=0}^{n}e^{x_{k}}}$

$=-\sum_{j=0}^{n}\frac{\partial l}{\partial y_{j}}\cdot y_{j}\cdot y_{i}+\frac{\partial l}{\partial y_{i}}\cdot y_{i}$

$=-(\sum_{j=0}^{n}\frac{\partial l}{\partial y_{j}}\cdot y_{j})\cdot y_{i}+\frac{\partial l}{\partial y_{i}}\cdot y_{i}$

注意上式括号里面的量与 $x_{i}$ 无关，并且其值为 $\frac{\partial l}{\partial y_{j}}$ 与 $y_{j}的逐元素乘积之和，设为\delta$ 的乘积之和，设其为 $\sigma$

则 ${\frac{\partial l}{\partial \mathbf{x}}} = -\sigma \cdot \mathbf{y}+{\frac{\partial l}{\partial \mathbf{y}}} \cdot \mathbf{y}= \mathbf{y}\cdot({\frac{\partial l}{\partial \mathbf{y}}}-\sigma )$

有人问这有什么意义？

其实这样就说明softmax的反向传播在编程的时候并不需要分i=j和i!=j的情况来计算。

以caffe为例子 bottom_diff = top_data * (top_diff - sum(top_diff * top_data)) 其中*表示点乘。

可以看出这样来计算backward不需要 gemm矩阵乘，只需要点乘即可完成。

杭州草民

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Softmax反向传播

softmax 公式：假设有一个向量，其长度为,表示中的第个元素，那么这个元素的softmax值为:Softmax反向传播当j!=i时，当j=i时，所以将上面两个式子加起来得到注意上式括号里面的量与无关，并且其值为与的乘积之和，设其为则有人问这有什么意义？其实这样就说明softmax的反向传播在编程的时候并不需要分i=j和i...
复制链接

扫一扫