Derivatives_in_Matrix

矩阵求导规则

       上一章中矩阵求导比较麻烦且不太好记,但其实大多数情况不需要将矩阵微积分的具体值求解出来。大多数情况只要求将求导式子简化从而发现不同变量间的关系。因此可以通过一些常用求导规则将矩阵微积分进一步化简,以便进一步计算及推导。下面表格中统一用小写加粗字母如 u \mathbf{u} u v \mathbf{v} v表示向量,大写加粗字母如 A \mathbf{A} A表示矩阵,小写未加粗字母如 u u u v v v 表示标量。
       在推导下列式子时要注意,尽管分子分母下的导数都写成相同的样子如 ∂ y ∂ x \frac{\partial y}{\partial x} xy,但实际它们并不相同,是互为转置的关系,切记不要搞混。

2.1 对标量求导

       对标量求导可分为三类,标量对标量求导、向量对标量求导和矩阵对标量求导,由于标量对标量求导符合一般的求导法则,所以表格当中只列举向量对标量求导和矩阵对标量求导的法则。

条件表达式分子布局分母布局
向量对标量求导
a不是x的函数$$\frac{\partial \mathbf{a}}{\partial x}=$$$$\mathbf{0}$$
a不是x的函数,$$\mathbf{u}=\mathbf{u}(x)$$$$\frac{\partial a\mathbf{u}}{\partial x}=$$$$a\frac{\partial\mathbf{u}}{\partial x}$$
$$\mathbf{A}不是x的函数\\ \mathbf{u}=\mathbf{u}(x)$$$$\frac{\partial\mathbf{Au}}{\partial x}=$$$$A\frac{\partial\mathbf{u}}{\partial x}$$$$\frac{\partial\mathbf{u}}{\partial x}A^T$$
$$\mathbf{u}=\mathbf{u}(x)$$$$\frac{\partial\mathbf{u}^T}{\partial x}=$$$$(\frac{\partial\mathbf{u}}{\partial x})^T$$
$$\mathbf{u}=\mathbf{u}(x),\mathbf{v}=\mathbf{v}(x)$$$$\frac{\partial(\mathbf{u+v})}{\partial x}=$$$$\frac{\partial\mathbf{u}}{\partial x}+\frac{\partial\mathbf{v}}{\partial x}$$
$$\mathbf{u}=\mathbf{u}(x),\mathbf{v}=\mathbf{v}(x)$$$$\frac{\partial(\mathbf{u}^T\times\mathbf{v})}{\partial x}=$$$$(\frac{\partial\mathbf{u}}{\partial x})^T\mathbf{v}+\mathbf{u}^T\frac{\partial\mathbf{v}}{\partial x}$$$$\frac{\partial\mathbf{u}}{\partial x}\mathbf{v}+\mathbf{u}^T(\frac{\partial\mathbf{v}}{\partial x})^T$$
$$\mathbf{u}=\mathbf{u}(x)$$$$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial x}=$$$$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{}u}\frac{\partial\mathbf{u}}{\partial x}$$$$\frac{\partial\mathbf{u}}{\partial x}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}$$
$$\mathbf{u}=\mathbf{u}(x)$$$$\frac{\partial\mathbf{f}(\mathbf{g}(\mathbf{u}))}{\partial x}=$$$$\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}\frac{\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}(x)}{\partial x}$$$$\frac{\partial\mathbf{u}(x)}{\partial x}\frac{\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}$$
$$\mathbf{U}=\mathbf{U}(x),\mathbf{v}=\mathbf{v}(x)$$$$\frac{\partial(\mathbf{U}\times\mathbf{v})}{\partial x}$$$$\frac{\partial\mathbf{U}}{\partial x}\times\mathbf{v}+\mathbf{U}\times\frac{\partial\mathbf{v}}{\partial x}$$$$\mathbf{v}^T\times\frac{\partial\mathbf{U}}{\partial x}+\frac{\partial\mathbf{v}}{\partial x}\times\mathbf{U}^T$$
       由上述公式可知,在分子布局下向量对标量的求导规则与函数对变量的求导规则一样,将向量与矩阵视为对标量的函数;而分母布局下只需导数视为分子布局下导数的转置,然后在利用转置的相关公式进行变化即可。
矩阵对标量求导
       为书写简便,矩阵对标量求导时只考虑分子布局,对于分母布局只有将对应的导数式子变为转置即可。
$$\mathbf{A}=\mathbf{U}(x)$$$$\frac{\partial a\mathbf{U}(x)}{\partial x}=$$$$a\frac{\partial\mathbf{U}}{\partial x}$$
$$\mathbf{A},\mathbf{B}不是x的函数\\ \mathbf{U}=\mathbf{U}(x)$$$$\frac{\partial\mathbf{AUB}}{\partial x}=$$$$\mathbf{A}\frac{\partial\mathbf{U}}{\partial x}\mathbf{B}$$
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$$$\frac{\partial(\mathbf{U+V})}{\partial x}=$$$$\frac{\partial\mathbf{U}}{\partial x}+\frac{\partial\mathbf{V}}{\partial x}$$
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$$$\frac{\partial(\mathbf{U}\mathbf{V})}{\partial x}=$$$$\frac{\partial\mathbf{U}}{\partial x}\mathbf{V}+\mathbf{U}\frac{\partial\mathbf{V}}{\partial x}$$
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$$$\frac{\partial(\mathbf{U}\oplus\mathbf{V})}{\partial x}=\\(异或运算)$$$$\frac{\partial\mathbf{U}}{\partial x}\oplus\mathbf{V}+\mathbf{U}\oplus\frac{\partial\mathbf{V}}{\partial x}$$
$$\mathbf{U}=\mathbf{U}(x),\mathbf{V}=\mathbf{V}(x)$$$$\frac{\partial(\mathbf{U}\circ\mathbf{V})}{\partial x}=\\(复合运算)$$$$\frac{\partial\mathbf{U}}{\partial x}\circ\mathbf{V}+\mathbf{U}\circ\frac{\partial\mathbf{V}}{\partial x}$$
$$\mathbf{U}=\mathbf{U}(x)$$$$\frac{\partial\mathbf{U}^{-1}}{\partial x}$$$$-\mathbf{U}^{-1}\frac{\partial\mathbf{U}}{\partial x}\mathbf{U}^{-1}$$
$$\mathbf{U}=\mathbf{U}(x,y)$$$$\frac{\partial^2\mathbf{U}^{-1}}{\partial x\partial y}=$$$$\mathbf{U}^{-1}(\frac{\partial\mathbf{U}}{\partial x}\mathbf{U}^{-1}\frac{\partial\mathbf{U}}{\partial y})\mathbf{U}^{-1}$$
$$\mathbf{A}不是x的函数,\mathbf{g}(\mathbf{X})是具有标量系数的任\\何多项式,或由无穷多项式系列定义的任\\何矩阵函数(例如e^{\mathbf{X}},sin(\mathbf{X}),cos(\mathbf{X}),ln(\mathbf{X})等); \mathbf{g}(x)是等价的标量函数,\mathbf{g}'(x)是它的导数,\mathbf{g} '(\mathbf{X})是相应的矩阵函数导数$$$$\frac{\partial\mathbf{g}(x\mathbf{A})}{\partial x}=$$$$\mathbf{A}\mathbf{g}'(x\mathbf{A})=\mathbf{g}'(x\mathbf{A})\mathbf{A}$$
$$\mathbf{A}不是x的函数$$$$\frac{\partial e^{\mathbf{A}x}}{\partial x}=$$$$\mathbf{A}e^{\mathbf{A}x}=e^{\mathbf{A}x}\mathbf{A}$$

2.2 对向量求导

       对向量求导可分为两类,标量对向量求导和向量对向量求导。

条件表达式分子布局分母布局
标量对向量求导
$$a不是\mathbf{x}的函数$$$$\frac{\partial a}{\partial\mathbf{x}}=$$$$\mathbf{0}^T$$$$\mathbf{0}$$
$$a不是\mathbf{x}的函数\\ u=u(\mathbf{x})$$$$\frac{\partial au}{\partial\mathbf{x}}=$$$$a\frac{\partial u}{\partial\mathbf{x}}$$
$$u=u(\mathbf{x}),v=v(\mathbf{x})$$$$\frac{\partial(u+v)}{\partial\mathbf{x}}=$$$$\frac{\partial u}{\partial\mathbf{x}}+\frac{\partial v}{\partial\mathbf{x}}$$
$$u=u(\mathbf{x}),v=v(\mathbf{x})$$$$\frac{\partial (u\times v)}{\partial\mathbf{x}}=$$$$v\frac{\partial u}{\partial\mathbf{x}}+u\frac{\partial v}{\partial\mathbf{x}}$$
$$u=u(\mathbf{x})$$$$\frac{\partial g(u)}{\partial\mathbf{x}}=$$$$\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{x}}$$
$$u=u(\mathbf{x})$$$$\frac{\partial f(g(u))}{\partial\mathbf{x}}=$$$$\frac{\partial f(g)}{\partial g}\frac{g(u)}{\partial u}\frac{\partial u(\mathbf{x})}{\partial\mathbf{x}}$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x})$$$$\frac{\partial(\mathbf{u}\times\mathbf{v})}{\partial\mathbf{x}}=\frac{\partial\mathbf{u}^T\mathbf{v}}{\partial\mathbf{x}}$$$$\mathbf{v}^T\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}^T\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{v}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}\mathbf{u}$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x}),\mathbf{A}不是\mathbf{x}的函数$$$$\frac{\partial(\mathbf{u}\mathbf{A}\mathbf{v})}{\partial\mathbf{x}}=\frac{\partial\mathbf{u}^T\mathbf{A}\mathbf{v}}{\partial\mathbf{x}}$$$$\mathbf{v}^T\mathbf{A}^T\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}^TA\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{A}\mathbf{v}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}\mathbf{A}^T\mathbf{u}$$
       在分子布局下标量对向量量的求导规则与函数对变量的求导规则一样,尽管分子与分母布局的表达式一样但它们将使用不同的求导规则求解。而最后两种情况下,分子布局与分母布局的求导表达式不相同是由于两种求导规则下得到的矩阵形状各不相同,所以要调整相应乘数的形状与位置。
向量对向量求导
$$\mathbf{a}不是\mathbf{x}的函数$$$$\frac{\partial\mathbf{a}}{\partial\mathbf{x}}=$$$$\mathbf{0}$$
$$\frac{\partial\mathbf{x}}{\partial\mathbf{x}}=$$$$\mathbf{I}$$
$$\mathbf{A}不是\mathbf{x}的函数$$$$\frac{\partial\mathbf{Ax}}{\partial\mathbf{x}}=$$$$\mathbf{A}$$$$\mathbf{A}^T$$
$$\mathbf{A}不是\mathbf{x}的函数$$$$\frac{\partial\mathbf{x^TA}}{\partial\mathbf{x}}=$$$$\mathbf{A}^T$$$$\mathbf{A}$$
$$a不是\mathbf{x}的函数,\mathbf{u}=\mathbf{u}(\mathbf{x})$$$$\frac{\partial a\mathbf{u}}{\partial\mathbf{x}}=$$$$a\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),v=v(\mathbf{x})$$$$\frac{\partial v\mathbf{u}}{\partial\mathbf{x}}=$$$$v\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\mathbf{u}\frac{\partial v}{\partial\mathbf{x}}$$$$v\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\frac{\partial v}{\partial\mathbf{x}}\mathbf{u}^T$$
$$\mathbf{A}不是\mathbf{x}的函数,\mathbf{u}=\mathbf{u}(\mathbf{x})$$$$\frac{\partial\mathbf{A}\mathbf{u}}{\partial\mathbf{x}}=$$$$\mathbf{A}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\mathbf{A}^T$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x}),\mathbf{v}=\mathbf{v}(\mathbf{x})$$$$\frac{\partial(\mathbf{v}+\mathbf{u})}{\partial\mathbf{x}}=$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}+\frac{\partial\mathbf{v}}{\partial\mathbf{x}}$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x})$$$$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{x}}=$$$$\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}$$
$$\mathbf{u}=\mathbf{u}(\mathbf{x})$$$$\frac{\partial\mathbf{f}(\mathbf{g}(\mathbf{u}))}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{u}}{\partial\mathbf{x}}$$$$\frac{\partial\mathbf{u}}{\partial\mathbf{x}}\frac{\partial\mathbf{g}(\mathbf{u})}{\partial\mathbf{u}}\frac{\partial\mathbf{f}(\mathbf{g})}{\partial\mathbf{g}}$$
向量对向量的导数可以划分为五类,(1)向量之和对向量的导数,(2)向量标量乘积对向量的导数,(3)向量矩阵乘积对向量的导数,(4)向量复合函数对向量的导数,根据普通函数对变量的求导规则求导,然后根据导数表达式将对应乘数(向量或矩阵)进行形状和位置的变化。

2.3 对矩阵求导

条件表达式分子布局分母布局
标量对矩阵求导
$$a不是\mathbf{X}的函数$$$$\frac{\partial a}{\partial\mathbf{X}}=$$$$\mathbf{0}^T$$$$\mathbf{0}$$
$$a不是\mathbf{X}的函数,u=u(\mathbf{X})$$$$\frac{\partial au}{\partial\mathbf{X}}=$$$$a\frac{\partial u}{\partial\mathbf{X}}$$
$$u=u(\mathbf{X}),v=v(\mathbf{X})$$$$\frac{\partial uv}{\partial\mathbf{X}}=$$$$u\frac{\partial v}{\partial\mathbf{X}}+v\frac{\partial u}{\partial\mathbf{X}}$$
$$u=u(\mathbf{X}),v=v(\mathbf{X})$$$$\frac{\partial(u+v)}{\partial\mathbf{X}}=$$$$\frac{\partial u}{\partial\mathbf{X}}+\frac{\partial v}{\partial\mathbf{X}}$$
$$u=u(\mathbf{X})$$$$\frac{\partial g(u)}{\partial\mathbf{X}}=$$$$\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{X}}$$
$$u=u(\mathbf{X})$$$$\frac{\partial f(g(u))}{\partial\mathbf{X}}=$$$$\frac{\partial f(g)}{\partial g}\frac{\partial g(u)}{\partial u}\frac{\partial u}{\partial\mathbf{X}}$$

2.4 参考

[1] 维基.Matrix_calculus

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值