cs231n - assignment1补充：矩阵求导

最新推荐文章于 2021-04-09 10:39:24 发布

lollows

最新推荐文章于 2021-04-09 10:39:24 发布

阅读量355

点赞数 2

分类专栏： python 文章标签：机器学习线性代数 python 算法

本文链接：https://blog.csdn.net/lollows/article/details/104794548

版权

python 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

cs231n - assignment1要求计算SVM-loss的梯度，因为涉及到一些矩阵求导方面的知识，可是官方笔记里面的资料比较少，而且这一块内容本身也不是很好理解，故搜集相关资料以便加深理解，如下：

初探——标量对矩阵求导

标量f对矩阵X的导数，定义为 $\frac{\partial f}{\partial X} = \left[\frac{\partial f }{\partial X_{ij}}\right]$ 即f对X逐元素求导排成与X尺寸相同的矩阵，下面看一个例子：

假设 $L = f (Y), Y = X W,$ 其中 $X (2, 2) / W (2, 3) / Y (2, 3) / L$ 为标量。

根据矩阵的乘法定义，可知： $Y_{i,j}=\sum_{k=1}^{D}X_{i,k}W_{k,j}，$ 则 $\frac{{\partial {Y_{i,j}}}}{{\partial {X_{m,k}}}} = \left\{ {\begin{array}{lc} {\begin{array}{cc} 0&{i \ne m} \end{array}}\\ {\begin{array}{cc} {{W_{k,j}}}&{i = m} \end{array}} \end{array}} \right.$
同理， $\frac{{\partial {Y_{i,j}}}}{{\partial {W_{k,m}}}} = \left\{ {\begin{array}{lc} {\begin{array}{cc} 0&{j \ne m} \end{array}}\\ {\begin{array}{cc} {{X_{i,k}}}&{j = m} \end{array}} \end{array}} \right. \quad (1)$ 详见Vector, Matrix, and Tensor Derivatives

根据链式法，标量L对 $W_{1,1}$ 的导数为 $\frac{\partial L}{\partial W_{1,1}}=\frac{\partial L}{\partial Y}\cdot \frac{\partial Y}{\partial W_{1,1}} \quad (2)$

其中 $\frac{\partial L}{\partial Y}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix} \quad (3)$ 并根据公式(1)得， $\frac{\partial Y}{\partial W_{1,1}}=\begin{pmatrix} X_{1,1}; 0; 0\\ X_{2,1}; 0; 0 \end{pmatrix} \quad (4)$

注意，因为L是标量， $W_{1,1}$ 也是标量，因此对于公式(2)来说，是dot product，而不是矩阵乘法。

公式(2)可进一步展开： $\frac{\partial L} {\partial W_{1,1}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} X_{1,1}; 0; 0\\ X_{2,1}; 0; 0 \end{pmatrix} = \frac{\partial L}{\partial Y_{1,1}}X_{1,1}+\frac{\partial L}{\partial Y_{2,1}}X_{2,1} \quad (5)$

同理 $\frac{\partial L}{\partial W_{1,2}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} 0; X_{1,1}; 0\\ 0; X_{2,1}; 0 \end{pmatrix} = \frac{\partial L}{\partial Y_{1,2}}X_{1,1}+\frac{\partial L}{\partial Y_{2,2}}X_{2,1} \quad (6)$

$\frac{\partial L}{\partial W_{1,3}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} 0; 0; X_{1,1}\\ 0; 0; X_{2,1}\end{pmatrix} = \frac{\partial L}{\partial Y_{1,3}}X_{1,1}+\frac{\partial L}{\partial Y_{2,3}}X_{2,1} \quad (7)$

$\frac{\partial L}{\partial W_{2,1}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} X_{1,2}; 0; 0\\ X_{2,2}; 0; 0 \end{pmatrix} = \frac{\partial L}{\partial Y_{1,1}}X_{1,2}+\frac{\partial L}{\partial Y_{2,1}}X_{2,2} \quad (8)$

$\frac{\partial L}{\partial W_{2,2}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} 0; X_{1,2}; 0\\ 0; X_{2,2}; 0 \end{pmatrix} = \frac{\partial L}{\partial Y_{1,2}}X_{1,2}+\frac{\partial L}{\partial Y_{2,2}}X_{2,2} \quad (9)$

$\frac{\partial L}{\partial W_{2,3}}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}}; \frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}}; \frac{\partial L}{\partial Y_{2,3}} \end{pmatrix}\begin{pmatrix} 0; 0; X_{1,2}\\ 0; 0; X_{2,2} \end{pmatrix} = \frac{\partial L}{\partial Y_{1,3}}X_{1,2}+\frac{\partial L}{\partial Y_{2,3}}X_{2,2} \quad (10)$

根据公式(5)～(10)，可最终得到标量L对矩阵W的导数：

$\frac{\partial L}{\partial W}=\begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}X_{1,1}+\frac{\partial L}{\partial Y_{2,1}}X_{2,1}; \frac{\partial L}{\partial Y_{1,2}}X_{1,1}+\frac{\partial L}{\partial Y_{2,2}}X_{2,1}; \frac{\partial L}{\partial Y_{1,3}}X_{1,1}+\frac{\partial L}{\partial Y_{2,3}}X_{2,1}\\ \frac{\partial L}{\partial Y_{1,1}}X_{1,2}+\frac{\partial L}{\partial Y_{2,1}}X_{2,2} ; \frac{\partial L}{\partial Y_{1,2}}X_{1,2}+\frac{\partial L}{\partial Y_{2,2}}X_{2,2}; \frac{\partial L}{\partial Y_{1,3}}X_{1,2}+\frac{\partial L}{\partial Y_{2,3}}X_{2,2} \end{pmatrix} \\ = \begin{pmatrix} X_{1,1}; X_{2,1}\\ X_{1,2}; X_{2,2} \end{pmatrix} \begin{pmatrix} \frac{\partial L}{\partial Y_{1,1}}; \frac{\partial L}{\partial Y_{1,2}};\frac{\partial L}{\partial Y_{1,3}}\\ \frac{\partial L}{\partial Y_{2,1}}; \frac{\partial L}{\partial Y_{2,2}};\frac{\partial L}{\partial Y_{2,3}} \end{pmatrix} =X^T\frac{\partial L}{\partial Y}\quad (11)$

*在cs231n的作业SVM里，L可定义为损失函数。即：

$=\frac { 1 } { N } \sum _ { i } L_i+ \lambda \sum _ { k } \sum _ { l } W _ { k , l } ^ { 2 }= \frac { 1 } { N } \sum _ { i } \sum _ { j \neq y _ { i } } \left[ \max \left( 0 , S_ {i j } - S_ {i y _ { i } } + \Delta \right) \right] + \lambda \sum _ { k } \sum _ { l } W _ { k , l } ^ { 2 }\quad (12)$

不过由于L包含求和符号，为方便起见，我们将其展开并对各项分别求导。对于正则化损失项，这里不多赘述，仅仅考量 $L_{i} = \sum _ { j \neq y _ { i } } \left[ \max \left( 0 , S_ {i j } - S_ {i y _ { i } } + \Delta \right) \right]$ 对矩阵W的导数。

根据公式(11)，可得 $\frac{\partial L_{i}}{\partial W} =X^T\frac{\partial L_{i}}{\partial S}，$ 由公式(12)可知 ${ L_{i} }$ 仅与下标 $i$ 有关，即 $\frac { \partial L_{i} } { \partial S_{mj} } =\left\{ \begin{array} {l } {\frac { \partial L_{i} } { \partial S_{ij} }} \qquad m = i \\{0 \qquad\quad m \neq i} \end{array} \right.$

进一步地，矩阵形式如下： $\frac{\partial L_{i}}{\partial W} = X^T\frac { \partial L_{i} } { \partial S } ==>\frac { \partial L_{i} } { \partial S_{ij} } =\left\{ \begin{array} {l} { 0 \qquad\qquad\qquad \left( S_ {i j } - S_ {i y _ { i } } + \Delta \right)\lt0} \\ { 1 \qquad\qquad j \neq y_i \ \& \left( S_ {i j } - S_ {i y _ { i } } + \Delta \right)\gt0 } \\ {-1*num \qquad j = y_i \ \&\left( S_ {ij} - S_ {i y_i } + \Delta \right)\gt0 } \end{array} \right.$
其中 $n u m$ 为 $(S_ {ij} - S_ {iy_i } + \Delta)_{ j \neq y_i }\gt0$ 的个数

$\frac{\partial L}{\partial W} =\frac { 1 } { N } \sum _ { i } \frac{\partial L_{i}}{\partial W} =\frac { 1 } { N } \sum _ { i }X^T \left[ \begin{matrix} \frac { \partial L_0 } { \partial S_{00} } & \frac { \partial L_0 } { \partial S_{01} } & \cdots&\frac { \partial L_0 } { \partial S_{0C} } \\ \frac { \partial L_1 } { \partial S_{10} }&\frac { \partial L_1 } { \partial S_{11} } &\cdots &\frac { \partial L_1 } { \partial S_{1C} } \\ \vdots&\vdots&\frac { \partial L_i } { \partial S_{ij} }&\vdots \\ \frac { \partial L_N } { \partial S_{N0} } &\frac { \partial L_N } { \partial S_{N1} }&\cdots &\frac { \partial L_N } { \partial S_{NC} } \end{matrix} \right]$

循环形式如下： $\frac{\partial L_{i}}{\partial W_{m,j}} =\sum _ { k }X^T_{m,k}\frac { \partial L_{i} } { \partial S_{k,j} } =\left\{ \begin{array} {c } { 0 \qquad\qquad k \neq i } \\ {X^T_{m,i}\frac { \partial L_{i} } { \partial S_{i,j} } \quad\quad k = i } \end{array} \right.$

lollows

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
cs231n - assignment1补充：矩阵求导

cs231n - assignment1要求计算SVM-loss的梯度，因为涉及到一些矩阵求导方面的知识，可是官方笔记里面的资料比较少，而且这一块内容本身也不是很好理解，故搜集相关资料以便加深理解，如下：初探——标量对矩阵求导标量f对矩阵X的导数，定义为∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X} = \left[\frac{\partial f }{\...
复制链接

扫一扫