矩阵论（八）：矩阵微分与矩阵求导

最新推荐文章于 2022-08-22 21:37:16 发布

exp(i)

最新推荐文章于 2022-08-22 21:37:16 发布

阅读量6.5k

点赞数 6

分类专栏：机器学习的数学基础文章标签：矩阵论矩阵微分矩阵求导反向传播算法

本文链接：https://blog.csdn.net/niu_123ming/article/details/86751878

版权

矩阵论专栏：专栏（文章按照顺序排序）

做机器学习的几乎避免不了矩阵求导，尤其是神经网络方面的，反向传播算法说白了就是在做矩阵求导，拿到代价函数对模型中每个参数矩阵的导数，才能找到一个下降方向，进而更新这些参数来降低损失。虽然实际编程时大可不必考虑这些繁琐的数学计算，但是要真正理解凸优化中的一些方法，掌握这个基本的数学工具还是有必要的。

【1】下面的探讨均在实数域内进行。
【2】虽然 $R^n$ 定义为实数域 $R$ 中的 $n$ 个数组成的有序数组 $x_1,x_2,...,x_n)$ 的集合，但当我们讨论 $R^n$ 中向量时，总是约定它是列向量的形式，即总是一个 $n\times 1$ 矩阵。这样更符合一般的习惯，比如线性方程组的表达： $A\in R^{m\times n},x\in R^n,b\in R^m$ 。
【3】我们讨论三种情形。向量对向量求导、矩阵对标量求导、标量对矩阵求导。标量对标量求导、标量对向量求导、向量对标量求导都可以看作是向量对向量求导的特例，而向量对矩阵求导、矩阵对向量求导和矩阵对矩阵求导涉及到高阶张量的运算，可以通过把矩阵向量化，从而把高阶运算用低阶运算代替。这样的方法需要向量化运算vec和kronecker积的基础，本篇博客不引入这两个概念，后面的博客探讨矩阵函数的微分时再引入。
【4】符号 $\frac{\partial y}{\partial x}$ 表示偏导，本文为表示方便，用 $\frac{\partial y}{\partial x}(a)$ 表示在点 $a$ 处的偏导的值（原本的表示应为 $\frac{\partial y}{\partial x}|_{x=a}$ 或 $\frac{\partial f(x)}{\partial x}|_{x=a}$ ）

矩阵微分与矩阵求导
- 布局约定
- 向量对向量求导
  - 可微与可导的关系
  - 复合函数的链式求导法则
  - 微分的形式不变性
  - 例子
- 矩阵对标量求导
  - 链式法则
  - 几个公式
- 标量对矩阵求导
  - 微分的定义
  - 复合函数的微分
  - 常用的微分公式
  - 例子
应用
- 线性回归问题的最小二乘解
  - L2正则化情形
- 多层前馈网络（BP网络）的反向传播
- 循环神经网络（RNN）的反向传播

矩阵微分与矩阵求导

布局约定

详细请见数学-矩阵计算（4）两种布局。在本文中，多数情况下采用分子布局。分子布局和分母布局实际上无需刻意区分，只要两种布局采用不同的符号就可以了。然而，有时候有些作者对分子布局和分母布局采用相同的符号，这时候就必须事先知道作者采用的是什么样的布局，才能确定该符号表达的布局是怎样的。例如，设有m维向量 $y$ 和n维向量 $x$ ， $\frac{\partial y}{\partial x}$ 如果采用的是分子布局，则是 $m\times n$ 矩阵，而如果采用的是分母布局，则是 $n\times m$ 矩阵。在本文中，我们通过符号来区分分子布局和分母布局（实际上，有了符号的约定以后，可以抛却这两个概念不谈）。

首先，正如文章开头所提，我们默认一个未显式指出究竟是行还是列的向量为列的形式，即任取 $x\in R^n$ ，我们默认 $x$ 是列向量。接下来，导数的布局通过微商符号的分子和分母的形式推定。以向量对向量的偏导为例， $\frac{\partial y}{\partial x^T}$ 分子上(即 $y$ )是列向量，分母上(即 $x^T$ )是行向量，则在该矩阵的布局中， $y$ 的分量 $y_1,y_2,...,y_m$ 是按列排布的， $x$ 的分量 $x_1,x_2,...,x_n$ 是按行排布的（这里真不知道怎么表达才好，实际上我是想说 $\partial y_1,\partial y_2,...\partial y_m$ 这样的顺序总是出现在矩阵的一列上， $\partial x_1,\partial x_2,...\partial x_n$ 总是出现在矩阵的一行上），即 $\frac{\partial y}{\partial x^T}=\begin{bmatrix}\frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&...&\frac{\partial y_1}{\partial x_n}\\\frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&...&\frac{\partial y_2}{\partial x_n}\\...&...&...&...\\\frac{\partial y_m}{\partial x_1}&\frac{\partial y_m}{\partial x_2}&...&\frac{\partial y_m}{\partial x_n}\end{bmatrix}$
这就是所谓的分子布局。而 $\frac{\partial y^T}{\partial x}=\begin{bmatrix}\frac{\partial y_1}{\partial x_1}&\frac{\partial y_2}{\partial x_1}&...&\frac{\partial y_m}{\partial x_1}\\\frac{\partial y_1}{\partial x_2}&\frac{\partial y_2}{\partial x_2}&...&\frac{\partial y_m}{\partial x_2}\\...&...&...&...\\\frac{\partial y_1}{\partial x_n}&\frac{\partial y_2}{\partial x_n}&...&\frac{\partial y_m}{\partial x_n}\end{bmatrix}$ 就是所谓的分母布局。这两种布局间的关系是 $\frac{\partial y^T}{\partial x}=(\frac{\partial y}{\partial x^T})^T$ 。总结一下就是，我们可以通过符号推定导数的布局是什么样的，在符号（微商）中，一个向量本来是什么形式，它在导数中就是怎样的排布，矩阵也同理。例如设有标量 $x\in R$ 和矩阵 $Y=[Y_{ij}]\in R^{m\times n}$ ，则 $\frac{\partial x}{\partial Y}=\begin{bmatrix}\frac{\partial x}{\partial Y_{11}}&\frac{\partial x}{\partial Y_{12}}&...&\frac{\partial x}{\partial Y_{1n}}\\\frac{\partial x}{\partial Y_{21}}&\frac{\partial x}{\partial Y_{22}}&...&\frac{\partial x}{\partial Y_{2n}}\\...&...&...&...\\\frac{\partial x}{\partial Y_{m1}}&\frac{\partial x}{\partial Y_{m2}}&...&\frac{\partial x}{\partial Y_{mn}}\end{bmatrix}$ 而 $\frac{\partial x}{\partial Y^T}=\begin{bmatrix}\frac{\partial x}{\partial Y_{11}}&\frac{\partial x}{\partial Y_{21}}&...&\frac{\partial x}{\partial Y_{m1}}\\\frac{\partial x}{\partial Y_{12}}&\frac{\partial x}{\partial Y_{22}}&...&\frac{\partial x}{\partial Y_{m2}}\\...&...&...&...\\\frac{\partial x}{\partial Y_{1n}}&\frac{\partial x}{\partial Y_{2n}}&...&\frac{\partial x}{\partial Y_{mn}}\end{bmatrix}$

向量对向量求导

在谈求导前，有必要谈一下微分的概念。一方面在后面可以看到可微是比可导更强的概念，在可微的条件下运用一阶微分的形式不变性可以简化复合函数的求导运算；另一方面，凸优化中的很多结论都是以可微为前提的，仅仅可导是远远不够的。
可微的定义：

定义1：设 $c\in R^n$ ，函数 $f:D\rightarrow R^m$ 在 $c$ 的某个半径为 $r > 0$ 的邻域 $U (c)$ 内有定义。若存在矩阵 $A\in R^{m\times n}$ ，使得对于任意的 $u\in \mathring U(0)$ （ $0\in R^n$ 是零向量，去心邻域 $\mathring U(0)$ 的半径为 $r$ ）有如下关系成立： $f(c+u)-f(c)=Au+\omicron(||u||_2)$ ，其中 $\omicron(||u||_2)$ 是当 $u\rightarrow 0$ 时的一个高阶无穷小，则称 $f$ 在点 $c$ 处是可微的，称 $u$ 的线性函数 $A u$ （又叫 $f$ 在点 $c$ 处的线性主部）为 $f$ 在点 $c$ 处的微分，记作 $d f (c) = A u$ ，并称 $A$ 是 $f$ 在点 $c$ 处的一阶导数矩阵，简称一阶导数。
【注1】“ $f$ 在 $c$ 的某个半径为 $r > 0$ 的邻域 $U (c)$ 内有定义”中“某个”的意思是指存在一个邻域 $U (c)$ ，它在 $f$ 的定义域内
【注2】当点 $c$ 给定后， $A$ 就是一个常矩阵，即要求 $A$ 与 $u$ 是无关的， $A$ 可以看做是 $c$ 的函数 $A (c)$
【注3】微分的基本思想是将非线性函数局部线性化。 $f (c + u) - f (c)$ 可以看做是 $f$ 在点 $c$ 处，自变量改变量为 $u$ 时的函数值改变量（因变量改变量），若忽略高阶无穷小项 $\omicron(||u||_2)$ 则得到 $f (c + u) - f (c) = A u$ ，即在点 $c$ 的某个邻域内（即“局部”的意思）将 $f$ 用一个线性函数 $A u$ 替代
【注4】符号 $d f (c)$ 直观上可以理解为 $f$ 在点 $c$ 处的一个微小改变量，相应地 $u$ 则是 $f$ 的自变量的一个微小改变量，常记作 $d c$ ，故微分的式子可以写作 $d f (c) = A d c$ （为什么自变量的改变量要采用微分符号d，实际上后面证明了一阶微分的形式不变性后就知道了）
【注5】高阶无穷小 $\omicron(||u||_2)$ 在 $u = 0$ 处是无定义的，常补充定义 $\omicron(0)=0$ ，这样定义中的关系式无论 $u$ 是否为零都成立

可微是比可导更强的概念，我们在说一个多元向量值函数可导时，往往是指它的每个分量对自变量的每个分量的偏导都存在。再严格一点的，就是指函数的每个分量对自变量的任意方向导数都存在。可微一定可导，可导不一定可微（在一元数量值函数的情形下，这个结论退化成可微与可导等价）。下面给出偏导的概念并证明可微与可导间的关系。

偏导的定义：

定义2：设 $c\in R^n$ ，函数 $f:D\rightarrow R^m$ 在 $c$ 的某个半径为 $r > 0$ 的邻域 $U (c)$ 内有定义。设 $0\neq t<r$ ，称极限（若存在的话） $\lim_{t\rightarrow 0}\frac{f_i(c+te_j)-f_i(c)}{t}$ （其中 $e_j$ 是第j个标准向量，其第 $j$ 个分量为1，其他分量为零）为 $f$ 的分量 $f_i$ 在点 $c$ 处对自变量 $x\in R^n$ 的第 $j$ 个分量的偏导，记作 $\frac{\partial f_i}{\partial x_j}(c)$ 。
定义3（Jacobian矩阵）：函数 $f:D\rightarrow R^m(D\subseteq R^n)$ 在点 $c$ 处对自变量 $x$ 的Jacobian矩阵定义如下 $\frac{\partial f}{\partial x^T}(c)=\begin{bmatrix}\frac{\partial f_1}{\partial x_1}(c)&\frac{\partial f_1}{\partial x_2}(c)&...&\frac{\partial f_1}{\partial x_n}(c)\\\frac{\partial f_2}{\partial x_1}(c)&\frac{\partial f_2}{\partial x_2}(c)&...&\frac{\partial f_2}{\partial x_n}(c)\\...&...&...&...\\\frac{\partial f_m}{\partial x_1}(c)&\frac{\partial f_m}{\partial x_2}(c)&...&\frac{\partial f_m}{\partial x_n}(c)\end{bmatrix}$
【注1】当 $f$ 是数量值函数时，Jacobian矩阵退化为一维行向量，即 $f$ 的梯度的转置（梯度常常写作列向量）；需要注意的是，Jacobian矩阵的第i行就是 $f$ 的第i个分量 $f_i$ 的梯度的转置；当 $f$ 是一元数量值函数时，Jacobian矩阵退化为一元情形下的导数的概念。
【注2】需要区分Jacobian矩阵和梯度矩阵的概念：梯度矩阵是Jacobian矩阵的转置

可微与可导间的关系：

定理1：设 $c\in R^n$ ，若 $f$ 在点 $c$ 处可微，则 $f$ 在 $c$ 处的Jacobian矩阵存在，且导数矩阵 $A(c)=\frac{\partial f}{\partial x^T}(c)$ 。
证明：
根据可微的定义，存在 $r > 0$ ，对任意 $u$ 满足 $0<||u||_2<r$ ，有 $f(c+u)-f(c)=A(c)u+\omicron (||u||_2)$ ，故 $\lim_{u\rightarrow 0}\frac{f(c+u)-f(c)-A(c)u}{||u||_2}=0$ 令 $u=te_j,t<r$ ，则 $\lim_{t\rightarrow 0}\frac{f(c+te_j)-f(c)-tA(c)e_j}{t}=0$ 故对任意 $i = 1, 2, . . ., m$ 及 $j = 1, 2, . . ., n$ 有 $\frac{\partial f_i}{\partial x_j}|_c=\lim_{t\rightarrow 0}\frac{f_i(c+te_j)-f_i(c)}{t}=e_i^TA(c)e_j=a_{ij}$ 其中 $a_{ij}$ 是导数矩阵 $A (c)$ 的 $(i, j)$ 元素。得证。

这个定理告诉我们，可微一定可导，且导数矩阵就是Jacobian矩阵。可导不一定可微，有很多反例，这里不再列举。反向传播算法是以复合函数链式求导法则为基础的，实际上，链导法是复合函数微分法则的一个附带结果，下面给出复合函数微分法则，并导出复合函数的链导法则。

定理2：若函数 $f:D_f\rightarrow R^m(D_f\subseteq R^n)$ 在点 $a$ 处可微，函数 $g:D_g\rightarrow R^r(D_g\supseteq R(f))$ 在点 $b = f (a)$ 处可微，则复合函数 $g\circ f$ 在点 $a$ 处可微，且 $d g (f (a)) = B (b) A (a) d a$ ，其中 $B (b)$ 是 $g$ 在点 $b$ 处的导数， $A (a)$ 是 $f$ 在点 $a$ 处的导数
证明：（下面涉及到的所有高阶无穷小都在点 $0$ 处补充定义 $\omicron(0)=0$ ）
由可微的定义，存在半径为 $r_1>0$ 的邻域 $U (a)$ ，使得任意 $u||_2<r_1$ 有 $f(a+u)-f(a)=A(a)u+\omicron_1 (||u||_2)\qquad (1)$ 存在半径为 $r_2>0$ 的邻域 $U (b)$ ，其中 $b = f (a)$ ，使得任意 $v||_2<r_2$ 有 $g(b+v)-g(b)=B(b)v+\omicron_2 (||v||_2)\qquad (2)$ 令 $\Delta f=f(a+u)-f(a)$ ，令（1）式两端 $u\rightarrow 0$ 得到 $\Delta f\rightarrow 0$ ，故 $||\Delta f||_2\rightarrow 0$ ，由极限的定义知存在 $r_3>0$ 使得任意 $u||_2<r_3$ 有 $||\Delta f||_2<r_2$ 。由（2）知可将 $v=\Delta f$ 代入，得 $g(b+\Delta f)-g(b)=B(b)\Delta f+\omicron_2 (||\Delta f||_2)$ ，即 $g(f(a+u))-g(f(a))=B(b)A(a)u+\alpha$ 对任意 $u||_2<\min\{r_1,r_3\}$ 成立，其中 $\alpha=B(b)\omicron_1 (||u||_2)+\omicron_2(||\Delta f||_2)$ 。要证明 $g\circ f$ 在点 $a$ 处可微，只需证明 $\lim_{u\rightarrow 0}\frac{\alpha}{||u||_2}=0$ 即可。由于 $\lim_{u\rightarrow 0}B(b)\frac{\omicron_1(||u||_2)}{||u||_2}=0$ ，故只需证明 $\lim_{u\rightarrow 0}\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=0$ 。引入函数 $Q(u)=\begin{cases}\frac{\omicron_2(||\Delta f||_2)}{||\Delta f||_2}&\Delta f\neq 0\\0&\Delta f=0\end{cases}$ ，其中 $u||_2<\min\{r_1,r_3\}$ ，可以证明当 $u\rightarrow 0$ 时 $Q(u)\rightarrow 0$ ，此处略去，证明见注释。由于 $\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=Q(u)\frac{||\Delta f||_2}{||u||_2}$ ， $\frac{||\Delta f||_2}{||u||_2}\leqslant \frac{||A(a)u||_2}{||u||_2}+\frac{||\omicron_1(||u||_2)||_2}{||u||_2}$ ，由矩阵不等式 $A(a)^TA(a)\leqslant \lambda(a)I$ ，其中 $\lambda(a)$ 是 $A(a)^TA(a)$ 的最大特征值，得到 $\frac{||A(a)u||_2}{||u||_2}\leqslant \sqrt{\lambda(a)}$ ，又由 $\lim_{u\rightarrow 0}\frac{||\omicron_1(||u||_2)||_2}{||u||_2}=0$ ，得到 $\frac{||\omicron_1(||u||_2)||_2}{||u||_2}$ 是局部有界的，故 $\frac{||\Delta f||_2}{||u||_2}$ 是局部有界的。综上有 $\lim_{u\rightarrow 0}\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=0$ ，证毕。
【注1】矩阵不等式见矩阵的正定性
【注2】 $\lim_{u\rightarrow 0}Q(u)=0$ 的证明：
利用 $lim_{u\rightarrow 0}\Delta f=0$ 以及 $lim_{v\rightarrow 0}\frac{\omicron_2(||v||_2)}{||v||_2}=0$ 这两个条件即可。 $\forall \epsilon>0,\exist \delta>0,\forall v$ 满足 $0<||v||_2<\delta$ 都有 $||\frac{\omicron_2(||v||_2)}{||v||_2}||_2<\epsilon$ ， $\exist \delta_1>0,\forall u$ 满足 $0<||u||_2<\delta_1$ 都有 $||\Delta f||_2<\delta$ ，故由如下结论： $\forall \epsilon >0,\exist \delta_1>0,\forall u$ 满足 $0<||u||_2<\delta_1$ ，若 $\Delta f=0$ ，则 $||Q(u)||_2=0<\epsilon$ ，若 $0<||\Delta f||_2<\delta$ ，则

最低0.47元/天解锁文章

exp(i)

关注

6
点赞
踩
45

收藏

觉得还不错? 一键收藏
0
评论
矩阵论（八）：矩阵微分与矩阵求导

广义逆矩阵做机器学习的几乎避免不了矩阵求导，尤其是神经网络方面的，反向传播算法说白了就是在做矩阵求导，拿到代价函数对模型中每个参数矩阵的导数，才能找到一个下降方向，进而更新这些参数来降低损失。虽然实际编程时大可不必考虑这些繁琐的数学计算，但是要真正理解凸优化中的一些方法，掌握这个基本的数学工具还是有必要的。【注1】下面的探讨均在实数域内进行。【注2】虽然RnR^nRn定义为实数域RRR中的...
复制链接

扫一扫