矩阵理论（三）向量矩阵的求导

最新推荐文章于 2025-03-04 17:04:39 发布

guofei_fly

最新推荐文章于 2025-03-04 17:04:39 发布

阅读量3.3k

点赞数 1

分类专栏：机器学习数学文章标签：数学向量矩阵

本文链接：https://blog.csdn.net/guofei_fly/article/details/101690738

版权

机器学习同时被 2 个专栏收录

39 篇文章

订阅专栏

数学

14 篇文章

订阅专栏

本文详述了向量矩阵求导的基础概念与方法，包括求导布局、定义法直接求解、基本法则、微分法求导及链式法则。深入解析了标量、向量与矩阵之间的复杂求导关系，适用于机器学习与深度学习算法的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在各类机器学习和深度学习算法的推导过程中，尤其是通过损失函数求解参数最优解过程中，经常用到向量矩阵的求导。从本质上讲，向量矩阵求导就是将多元标量函数求导按照一定的布局排列为向量或矩阵。

按照求导中自变量和因变量的关系，标量、向量、矩阵可排列组合为9种组合（见下表）。本文仅涉及标量与向量和矩阵，向量与向量的五种求导。而矩阵和向量间的混合求导不做涉及。

自变量/因变量	标量y	向量?	矩阵?
标量?	∂?/∂?	∂?/∂?	∂?/∂?
向量?	∂?/∂?	∂?/∂?	∂?/∂?
矩阵?	∂?/∂?	∂?/∂?	∂?/∂?

一、求导布局

对向量矩阵求导结果进行布局的统一。常见有的分子布局和分母布局两种，两者之间互为转置：

分子布局：求导结果维度主要参考分子。

分母布局：求导结果维度主要参考分母。

若分母或分子维度无法确定，则取分子或分母分布的转置，如列向量与标量求导，结果按分母布局，应为行向量

向量和向量导数的布局定义：m维列向量?对n维列向量?求导，分子布局，则矩阵的第一个维度以分子为准（ $m\times n$ ），常称为雅可比矩阵；分母布局，则矩阵的第一个维度以分母为准（ $n\times m$ ），常称为梯度矩阵。

混合布局：一种默认的分子或分布布局。标量对向量或矩阵求导，按照分母布局；向量或矩阵对标量求导，按照分子布局；向量对向量求导，以雅可比矩阵（即分子布局）为主。

在看推导过程中经常出现 $A$ 或 $A^T$ 的表达，只是布局方式不一样。

二、定义法直接求解

即展开成多元函数对某个变量的求导，然后写成向量的形式。

三、标量对向量求导的基本法则

（1）常量对向量的求导结果为0。
（2）线性法则：如果?,?都是实值函数， $c_1$ , $c_2$ 为常数，则：
在这里插入图片描述
（3）乘法法则，如果?,?都是实值函数（注意，这点必须满足），则：

（4）除法法则，如果?,?都是实值函数，且?(?)≠0，则：

四、微分法求导

微分法特别适用于矩阵?经加减乘法、逆、行列式、逐元素函数等运算构成的标量函数?的求导。其基本步骤为：

（1）使用相应的运算法则对?求微分；

（2）微分等式两边取迹tr，并对等式右边项进行变换，使??位于迹内最右侧

（3）对??左侧项取转置，即为所求导数

4.1 矩阵迹的基本属性

1） $\sum\limits_i\sum\limits_j\boldsymbol A_{ij}\boldsymbol B_{ij}=tr(\boldsymbol {A^TB})$

2）标量的迹等于其子集 $t r (x) = x$

3）矩阵转置迹不变 $tr(\boldsymbol A)=tr(\boldsymbol A^T)$

4）转置同维矩阵 $(\boldsymbol A，\boldsymbol B^T)$ 的交换率： $tr(\boldsymbol A\boldsymbol B)=tr(\boldsymbol B\boldsymbol A)$

5）同维矩阵的加减法： $tr(\boldsymbol A\pm\boldsymbol B)=tr(\boldsymbol A)\pm tr(\boldsymbol B)$

6）同维三个矩阵的乘法和迹交换： $tr((\boldsymbol A\odot\boldsymbol B)^T\boldsymbol C)$ = $tr(\boldsymbol A^T(\boldsymbol B\odot\boldsymbol C))$

式中 $\odot$ 为哈达马乘积，即逐元素乘积。

7）迹函数求导： $\frac{\partial tr(\boldsymbol{AB})}{\partial \boldsymbol A}=\boldsymbol B^T$ ， $\frac{\partial tr(\boldsymbol{AB})}{\partial \boldsymbol B}=\boldsymbol A^T$
可由 $d(tr(\boldsymbol{AB}))=tr(d\boldsymbol{AB})=tr(\boldsymbol Ad\boldsymbol B)+tr(\boldsymbol Bd\boldsymbol A)$ 推导得到

4.2 向量矩阵微分的写法

向量微分：在这里插入图片描述
矩阵微分：

可见，标量函数对向量或矩阵的求导可转换为：微分取迹后迹内自变量前系数项的转置

4.3 矩阵微分的性质

微分加减法： $d(\boldsymbol X\pm\boldsymbol Y)=d\boldsymbol X\pm d\boldsymbol Y$

微分乘法： $d(\boldsymbol{XY})=\boldsymbol Xd\boldsymbol Y+\boldsymbol Yd\boldsymbol X$

微分转置： $d(\boldsymbol X^T)=(d\boldsymbol X)^T$

微分的迹： $d(tr\boldsymbol X)=tr(d\boldsymbol X)$

微分哈达马乘积： $d(\boldsymbol X\odot\boldsymbol Y)=\boldsymbol X\odot d\boldsymbol Y+\boldsymbol Y \odot d\boldsymbol X$

逐元素求导： $d\sigma(\boldsymbol X)=\sigma'(\boldsymbol X)d\boldsymbol X$

逆矩阵微分： $d\boldsymbol X^{-1}=-\boldsymbol X^{-1}\boldsymbol dX\boldsymbol X^{-1}$

行列式微分： $d|\boldsymbol X|=|\boldsymbol X|tr(\boldsymbol X^{-1}d\boldsymbol X)$

五、链式求导法则

链式求导法则可用于向量对向量、标量对向量的求导等场景

5.1 向量对向量求导的链式法则

对于向量间关系，?→?→?，其链式求导表达式可以表示为：

∂?/∂?=∂?/∂?*∂?/∂?

5.2 标量对多个向量恩链式法则

对于向量到标量的关系， $\boldsymbol y_1$ → $\boldsymbol y_2$ →…→ $\boldsymbol y_n$ →?，则其链式求导表达式可以表示为：
在这里插入图片描述

5.3 标量对多个矩阵的链式求导法则

对于矩阵到标量的关系，X→Y→…z，其链式求导表达式可以表示为：

$\frac{\partial z}{\partial \boldsymbol X_{ij}}=\sum\limits_{k,l}\frac{\partial z}{\partial \boldsymbol Y_{kl}}\frac{\partial \boldsymbol Y_{kl}}{\partial \boldsymbol X_{ij}}=tr((\frac{\partial z}{\partial \boldsymbol Y})^T\frac{\partial \boldsymbol Y}{\partial \boldsymbol X_{ij}})$