softmax求导

Nightmare004

已于 2023-02-09 10:03:38 修改

阅读量515

点赞数 1

分类专栏：深度学习文章标签： softmax函数导数计算矩阵微分神经网络梯度

于 2021-09-30 17:39:29 首次发布

本文链接：https://blog.csdn.net/qq_39942341/article/details/120569576

版权

深度学习专栏收录该内容

49 篇文章 2 订阅

订阅专栏

粗体表示向量
$softmax(\boldsymbol{x})=\frac{e^{\boldsymbol{x}}}{\boldsymbol{1}^T e^{\boldsymbol{x}}}$
其中 $\boldsymbol{1}$ 是一个全 $1$ 的向量

$diag(\boldsymbol{x})=diag(x_1,x_2,\cdots,x_n)$

用到的法则(采用分母布局)
$a=a(\boldsymbol{x})，\boldsymbol{u}=u(\boldsymbol{x})$ 则
$\frac{\partial a\boldsymbol{u}}{\partial \boldsymbol{x}}=a\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}+\frac{\partial a}{\partial \boldsymbol{x}}\boldsymbol{u}^T$
$\boldsymbol{u} = \boldsymbol{u}\left(\boldsymbol{x}\right),\boldsymbol{v} = \boldsymbol{v}\left(\boldsymbol{x}\right)$
$\frac{\partial \boldsymbol{u}^T\boldsymbol{v}}{\partial \boldsymbol{x}} = \frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}\boldsymbol{v} + \frac{\partial \boldsymbol{v}}{\partial \boldsymbol{x}}\boldsymbol{u}$

采用分母布局
设 $\boldsymbol{y}=softmax(\boldsymbol{x})$
$\begin{aligned} \frac{\partial\ softmax(\boldsymbol{x})}{\partial \boldsymbol{x}} &=\frac{1}{\boldsymbol{1}^T e^{\boldsymbol{x}}}\frac{\partial e^{\boldsymbol{x}}}{\partial \boldsymbol{x}}+\frac{\partial (\frac{1}{\boldsymbol{1}^T e^{\boldsymbol{x}}})}{\partial \boldsymbol{x}}(e^{\boldsymbol{x}})^T\\ &=\frac{1}{\boldsymbol{1}^T e^{\boldsymbol{x}}}diag(e^{\boldsymbol{x}})-\frac{1}{(\boldsymbol{1}^T e^{\boldsymbol{x}})^2}\frac{\partial (\boldsymbol{1}^T e^{\boldsymbol{x}})}{\partial \boldsymbol{x}}(e^{\boldsymbol{x}})^T\\ &=\frac{1}{\boldsymbol{1}^T e^{\boldsymbol{x}}}diag(e^{\boldsymbol{x}})-\frac{1}{(\boldsymbol{1}^T e^{\boldsymbol{x}})^2} \boldsymbol{1}^T diag(e^{\boldsymbol{x}})(e^{\boldsymbol{x}})^T\\ &=\frac{1}{\boldsymbol{1}^T e^{\boldsymbol{x}}}diag(e^{\boldsymbol{x}})-\frac{1}{(\boldsymbol{1}^T e^{\boldsymbol{x}})^2} e^{\boldsymbol{x}}(e^{\boldsymbol{x}})^T\\ &=diag(softmax(\boldsymbol{x}))-softmax(\boldsymbol{x})(softmax(\boldsymbol{x}))^T\\ &=diag(\boldsymbol{y})-\boldsymbol{y}\boldsymbol{y}^T \end{aligned}$

Nightmare004

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
softmax求导

粗体表示向量softmax(x)=ex1Texsoftmax(\boldsymbol{x})=\frac{e^{\boldsymbol{x}}}{\boldsymbol{1}^T e^{\boldsymbol{x}}}softmax(x)=1Texex其中1\boldsymbol{1}1是一个全111的向量diag(x)=diag(x1,x2,⋯ ,xn)diag(\boldsymbol{x})=diag(x_1,x_2,\cdots,x_n)diag(x)=diag(x1,x2,⋯,xn)
复制链接

扫一扫