矩阵求导规则
上一章中矩阵求导比较麻烦且不太好记,但其实大多数情况不需要将矩阵微积分的具体值求解出来。大多数情况只要求将求导式子简化从而发现不同变量间的关系。因此可以通过一些常用求导规则将矩阵微积分进一步化简,以便进一步计算及推导。下面表格中统一用小写加粗字母如
u
\mathbf{u}
u和
v
\mathbf{v}
v表示向量,大写加粗字母如
A
\mathbf{A}
A表示矩阵,小写未加粗字母如
u
u
u 和
v
v
v 表示标量。
在推导下列式子时要注意,尽管分子分母下的导数都写成相同的样子如
∂
y
∂
x
\frac{\partial y}{\partial x}
∂x∂y,但实际它们并不相同,是互为转置的关系,切记不要搞混。
2.1 对标量求导
对标量求导可分为三类,标量对标量求导、向量对标量求导和矩阵对标量求导,由于标量对标量求导符合一般的求导法则,所以表格当中只列举向量对标量求导和矩阵对标量求导的法则。
条件 | 表达式 | 分子布局 | 分母布局 |
向量对标量求导 | |||
a不是x的函数 | $$\frac{\partial \mathbf{a}}{\partial x}=$$ | $$\mathbf{0}$$ | |
a不是x的函数,$$\mathbf{u}=\mathbf{u}(x)$$ | $$\frac{\partial a\mathbf{u}}{\partial x}=$$ | $$a\frac{\partial\mathbf{u}}{\partial x}$$ | |
$$\mathbf{A}不是x的函数\\ \mathbf{u}=\mathbf{u}(x)$$ | $$\frac{\partial\mathbf{Au}}{\partial x}=$$ | $$A\frac{\partial\mathbf{u}}{\partial x}$$ | $$\frac{\partial\mathbf{u}}{\partial x}A^T$$ |
$$\mathbf{u}=\mathbf{u}(x)$$ | $$\frac{\partial\mathbf{u}^T}{\partial x}=$$ | $$(\frac{\partial\mathbf{u}}{\partial x})^T$$ | |
$$\mathbf{u}=\mathbf{u}(x),\mathbf{v}=\mathbf{v}(x)$$ | $$\frac{\partial(\mathbf{u+v})}{\partial x}=$$ | $$\frac{\partial\mathbf{u}}{\partial x}+\frac{\partial\mathbf{v}}{\partial x}$$ | |
$$\mathbf{u}=\mathbf{u}(x),\mathbf{v}=\mathbf{v}(x)$$ | $$\frac{\partial(\mathbf{u}^T\times\mathbf{v})}{\partial x}=$$ | $$(\frac{\partial\mathbf{u}}{\partial x})^T\mathbf{v}+\mathbf{u}^T\frac{\partial\mathbf{v}}{\partial x}$$ | $$\frac{\partial\mathbf{u}}{\partial x}\mathbf{v}+\mathbf{u}^T(\frac{\partial\mathbf{v}}{\partial x})^T$$ |
$$\mathbf{u}=\mathbf{u}(x)$$ | $$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial x}=$$ | $$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{}u}\frac{\partial\mathbf{u}}{\partial x}$$ | $$\frac{\partial\mathbf{u}}{\partial x}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}$$ |
$$\mathbf{u}=\mathbf{u}(x)$$ | $$\frac{\partial\mathbf{f}(\mathbf{g}(\mathbf{u}))}{\partial x}=$$ | $$\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}\frac{\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}(x)}{\partial x}$$ | $$\frac{\partial\mathbf{u}(x)}{\partial x}\frac{\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}$$ |
$$\mathbf{U}=\mathbf{U}(x),\mathbf{v}=\mathbf{v}(x)$$ | $$\frac{\partial(\mathbf{U}\times\mathbf{v})}{\partial x}$$ | $$\frac{\partial\mathbf{U}}{\partial x}\times\mathbf{v}+\mathbf{U}\times\frac{\partial\mathbf{v}}{\partial x}$$ | $$\mathbf{v}^T\times\frac{\partial\mathbf{U}}{\partial x}+\frac{\partial\mathbf{v}}{\partial x}\times\mathbf{U}^T$$ |
由上述公式可知,在分子布局下向量对标量的求导规则与函数对变量的求导规则一样,将向量与矩阵视为对标量的函数;而分母布局下只需导数视为分子布局下导数的转置,然后在利用转置的相关公式进行变化即可。 | |||
矩阵对标量求导 | |||
为书写简便,矩阵对标量求导时只考虑分子布局,对于分母布局只有将对应的导数式子变为转置即可。 | |||
$$\mathbf{A}=\mathbf{U}(x)$$ | $$\frac{\partial a\mathbf{U}(x)}{\partial x}=$$ | $$a\frac{\partial\mathbf{U}}{\partial x}$$ | |
$$\mathbf{A},\mathbf{B}不是x的函数\\ \mathbf{U}=\mathbf{U}(x)$$ | $$\frac{\partial\mathbf{AUB}}{\partial x}=$$ | $$\mathbf{A}\frac{\partial\mathbf{U}}{\partial x}\mathbf{B}$$ | |
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$ | $$\frac{\partial(\mathbf{U+V})}{\partial x}=$$ | $$\frac{\partial\mathbf{U}}{\partial x}+\frac{\partial\mathbf{V}}{\partial x}$$ | |
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$ | $$\frac{\partial(\mathbf{U}\mathbf{V})}{\partial x}=$$ | $$\frac{\partial\mathbf{U}}{\partial x}\mathbf{V}+\mathbf{U}\frac{\partial\mathbf{V}}{\partial x}$$ | |
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$ | $$\frac{\partial(\mathbf{U}\oplus\mathbf{V})}{\partial x}=\\(异或运算)$$ | $$\frac{\partial\mathbf{U}}{\partial x}\oplus\mathbf{V}+\mathbf{U}\oplus\frac{\partial\mathbf{V}}{\partial x}$$ | |
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$ | $$\frac{\partial(\mathbf{U}\circ\mathbf{V})}{\partial x}=\\(复合运算)$$ | $$\frac{\partial\mathbf{U}}{\partial x}\circ\mathbf{V}+\mathbf{U}\circ\frac{\partial\mathbf{V}}{\partial x}$$ | |
$$\mathbf{U}=\mathbf{U}(x)$$ | $$\frac{\partial\mathbf{U}^{-1}}{\partial x}$$ | $$-\mathbf{U}^{-1}\frac{\partial\mathbf{U}}{\partial x}\mathbf{U}^{-1}$$ | |
$$\mathbf{U}=\mathbf{U}(x,y)$$ | $$\frac{\partial^2\mathbf{U}^{-1}}{\partial x\partial y}=$$ | $$\mathbf{U}^{-1}(\frac{\partial\mathbf{U}}{\partial x}\mathbf{U}^{-1}\frac{\partial\mathbf{U}}{\partial y})\mathbf{U}^{-1}$$ | |
$$\mathbf{A}不是x的函数,\mathbf{g}(\mathbf{X})是具有标量系数的任\\何多项式,或由无穷多项式系列定义的任\\何矩阵函数(例如e^{\mathbf{X}},sin(\mathbf{X}),cos(\mathbf{X}),ln(\mathbf{X})等); \mathbf{g}(x)是等价的标量函数,\mathbf{g}'(x)是它的导数,\mathbf{g} '(\mathbf{X})是相应的矩阵函数导数$$ | $$\frac{\partial\mathbf{g}(x\mathbf{A})}{\partial x}=$$ | $$\mathbf{A}\mathbf{g}'(x\mathbf{A})=\mathbf{g}'(x\mathbf{A})\mathbf{A}$$ | |
$$\mathbf{A}不是x的函数$$ | $$\frac{\partial e^{\mathbf{A}x}}{\partial x}=$$ | $$\mathbf{A}e^{\mathbf{A}x}=e^{\mathbf{A}x}\mathbf{A}$$ |
2.2 对向量求导
对向量求导可分为两类,标量对向量求导和向量对向量求导。
条件 | 表达式 | 分子布局 | 分母布局 |
标量对向量求导 | |||
$$a不是\mathbf{x}的函数$$ | $$\frac{\partial a}{\partial\mathbf{x}}=$$ | $$\mathbf{0}^T$$ | $$\mathbf{0}$$ |
$$a不是\mathbf{x}的函数\\ u=u(\mathbf{x})$$ | $$\frac{\partial au}{\partial\mathbf{x}}=$$ | $$a\frac{\partial u}{\partial\mathbf{x}}$$ | |
$$u=u(\mathbf{x}),v=v(\mathbf{x})$$ | $$\frac{\partial(u+v)}{\partial\mathbf{x}}=$$ | $$\frac{\partial u}{\partial\mathbf{x}}+\frac{\partial v}{\partial\mathbf{x}}$$ | |
$$u=u(\mathbf{x}),v=v(\mathbf{x})$$ | $$\frac{\partial (u\times v)}{\partial\mathbf{x}}=$$ | $$v\frac{\partial u}{\partial\mathbf{x}}+u\frac{\partial v}{\partial\mathbf{x}}$$ | |
$$u=u(\mathbf{x})$$ | $$\frac{\partial g(u)}{\partial\mathbf{x}}=$$ | $$\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{x}}$$ | |
$$u=u(\mathbf{x})$$ | $$\frac{\partial f(g(u))}{\partial\mathbf{x}}=$$ | $$\frac{\partial f(g)}{\partial g}\frac{g(u)}{\partial u}\frac{\partial u(\mathbf{x})}{\partial\mathbf{x}}$$ | |
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x})$$ | $$\frac{\partial(\mathbf{u}\times\mathbf{v})}{\partial\mathbf{x}}=\frac{\partial\mathbf{u}^T\mathbf{v}}{\partial\mathbf{x}}$$ | $$\mathbf{v}^T\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}^T\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{v}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}\mathbf{u}$$ |
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x}),\mathbf{A}不是\mathbf{x}的函数$$ | $$\frac{\partial(\mathbf{u}\mathbf{A}\mathbf{v})}{\partial\mathbf{x}}=\frac{\partial\mathbf{u}^T\mathbf{A}\mathbf{v}}{\partial\mathbf{x}}$$ | $$\mathbf{v}^T\mathbf{A}^T\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}^TA\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{A}\mathbf{v}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}\mathbf{A}^T\mathbf{u}$$ |
在分子布局下标量对向量量的求导规则与函数对变量的求导规则一样,尽管分子与分母布局的表达式一样但它们将使用不同的求导规则求解。而最后两种情况下,分子布局与分母布局的求导表达式不相同是由于两种求导规则下得到的矩阵形状各不相同,所以要调整相应乘数的形状与位置。 | |||
向量对向量求导 | |||
$$\mathbf{a}不是\mathbf{x}的函数$$ | $$\frac{\partial\mathbf{a}}{\partial\mathbf{x}}=$$ | $$\mathbf{0}$$ | |
$$\frac{\partial\mathbf{x}}{\partial\mathbf{x}}=$$ | $$\mathbf{I}$$ | ||
$$\mathbf{A}不是\mathbf{x}的函数$$ | $$\frac{\partial\mathbf{Ax}}{\partial\mathbf{x}}=$$ | $$\mathbf{A}$$ | $$\mathbf{A}^T$$ |
$$\mathbf{A}不是\mathbf{x}的函数$$ | $$\frac{\partial\mathbf{x^TA}}{\partial\mathbf{x}}=$$ | $$\mathbf{A}^T$$ | $$\mathbf{A}$$ |
$$a不是\mathbf{x}的函数,\mathbf{u}=\mathbf{u}(\mathbf{x})$$ | $$\frac{\partial a\mathbf{u}}{\partial\mathbf{x}}=$$ | $$a\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$ | |
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),v=v(\mathbf{x})$$ | $$\frac{\partial v\mathbf{u}}{\partial\mathbf{x}}=$$ | $$v\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}\frac{\partial v}{\partial\mathbf{x}}$$ | $$v\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\frac{\partial v}{\partial\mathbf{x}}\mathbf{u}^T$$ |
$$\mathbf{A}不是\mathbf{x}的函数,\mathbf{u}=\mathbf{u}(\mathbf{x})$$ | $$\frac{\partial\mathbf{A}\mathbf{u}}{\partial\mathbf{x}}=$$ | $$\mathbf{A}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{A}^T$$ |
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x})$$ | $$\frac{\partial(\mathbf{v}+\mathbf{u})}{\partial\mathbf{x}}=$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$ | |
$$\mathbf{u}=\mathbf{u}(\mathbf{x})$$ | $$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{x}}=$$ | $$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}$$ |
$$\mathbf{u}=\mathbf{u}(\mathbf{x})$$ | $$\frac{\partial\mathbf{f}(\mathbf{g}(\mathbf{u}))}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$ | $$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}$$ |
向量对向量的导数可以划分为五类,(1)向量之和对向量的导数,(2)向量标量乘积对向量的导数,(3)向量矩阵乘积对向量的导数,(4)向量复合函数对向量的导数,根据普通函数对变量的求导规则求导,然后根据导数表达式将对应乘数(向量或矩阵)进行形状和位置的变化。 |
2.3 对矩阵求导
条件 | 表达式 | 分子布局 | 分母布局 |
标量对矩阵求导 | |||
$$a不是\mathbf{X}的函数$$ | $$\frac{\partial a}{\partial\mathbf{X}}=$$ | $$\mathbf{0}^T$$ | $$\mathbf{0}$$ |
$$a不是\mathbf{X}的函数,u=u(\mathbf{X})$$ | $$\frac{\partial au}{\partial\mathbf{X}}=$$ | $$a\frac{\partial u}{\partial\mathbf{X}}$$ | |
$$u=u(\mathbf{X}),v=v(\mathbf{X})$$ | $$\frac{\partial uv}{\partial\mathbf{X}}=$$ | $$u\frac{\partial v}{\partial\mathbf{X}}+v\frac{\partial u}{\partial\mathbf{X}}$$ | |
$$u=u(\mathbf{X}),v=v(\mathbf{X})$$ | $$\frac{\partial(u+v)}{\partial\mathbf{X}}=$$ | $$\frac{\partial u}{\partial\mathbf{X}}+\frac{\partial v}{\partial\mathbf{X}}$$ | |
$$u=u(\mathbf{X})$$ | $$\frac{\partial g(u)}{\partial\mathbf{X}}=$$ | $$\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{X}}$$ | |
$$u=u(\mathbf{X})$$ | $$\frac{\partial f(g(u))}{\partial\mathbf{X}}=$$ | $$\frac{\partial f(g)}{\partial g}\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{X}}$$ |
2.4 参考
[1] 维基.Matrix_calculus