线性代数之矩阵微积分

最新推荐文章于 2022-11-19 22:02:38 发布

june_francis

最新推荐文章于 2022-11-19 22:02:38 发布

阅读量980

点赞数 2

文章标签：机器学习线性代数

本文链接：https://blog.csdn.net/june_young_fan/article/details/102906096

版权

文章目录

- - 前言

前言

线性代数相关知识的学习笔记，仅供自己备忘及网友学习交流使用。

1.1 梯度

假设 $\colon \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ 是将维度为 $\times n$ 的矩阵作为输入并返回实数值的函数。然后 $f$ 的梯度（相对于 $\in \mathbb{R}^{m \times n}$ ）是偏导数矩阵，定义如下：
$\nabla_{A} f(A) \in \mathbb{R}^{m \times n} = \begin{bmatrix} \frac{\partial{f(A)}}{\partial{A_{11}}} & \frac{\partial{f(A)}}{\partial{A_{12}}} & \cdots & \frac{\partial{f(A)}}{\partial{A_{1n}}} \\ \frac{\partial{f(A)}}{\partial{A_{21}}} & \frac{\partial{f(A)}}{\partial{A_{22}}} & \cdots & \frac{\partial{f(A)}}{\partial{A_{2n}}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial{f(A)}}{\partial{A_{m1}}} & \frac{\partial{f(A)}}{\partial{A_{m2}}} & \cdots & \frac{\partial{f(A)}}{\partial{A_{mn}}} \end{bmatrix}$
即 $\times n$ 矩阵：
$(\nabla_{A} f(A))_{ij} = \frac{\partial{f(A)}}{\partial{A_{ij}}}$

请注意， $\nabla_{A} f(A)$ 的维度始终与 $A$ 的维度相同。特殊情况，如果 $A$ 只是向量 $\in \mathbb{R}^n$ ，则：
$\nabla_{x} f(x) = \begin{bmatrix} \frac{\partial{f(x)}}{\partial{x_{1}}} \\ \frac{\partial{f(x)}}{\partial{x_{2}}} \\ \vdots \\ \frac{\partial{f(x)}}{\partial{x_{n}}} \end{bmatrix}$

重要的是要记住，只有当函数是实值时，即如果函数返回标量值，才定义函数的梯度。例如 $\in \mathbb{R}^{m \times n}$ ，相对于 $x$ ，我们不能取 $A x$ 的梯度，因为这个量是向量值。它直接从偏导数的等价性质得出：

$\nabla_{x} (f(x) + g(x)) = \nabla_{x} f(x) + \nabla_{x} g(x)$
对于 $\in \mathbb{R}$ ， $\nabla_{x} (tf(x)) = t\nabla_{x} f(x)$

原则上，梯度是偏导数对多变量函数的自然延伸。然而，在实践中，由于符号的原因，使用梯度有时是很困难的。例如，假设 $\in \mathbb{R}^{m \times n}$ 是一个固定系数矩阵，假设 $\in \mathbb{R}^m$ 是一个固定系数向量。设 $\colon \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ 为 $f(z) = z^Tz$ 定义的函数，因此 $\nabla_{z} f(z) = 2z$ 。但现在考虑表达式：
$\nabla f(Ax)$

该表达式应该如何解释？至少有两种可能性：

在第一个解释中，回想起 $\nabla_{z} f(z) = 2z$ 。在这里，我们将 $\nabla f(Ax)$ 解释为评估点 $A x$ 处的梯度，因此：
$\nabla f(Ax) = 2(Ax) = 2Ax \in \mathbb{R}^m$
在第二种解释中，我们将数量 $f (A x)$ 视为输入变量 $x$ 的函数。更正式地说，设 $g (x) = f (A x)$ 。然后在这个解释中：
$\nabla f(Ax) = \nabla_{x} g(x) \in \mathbb{R}^n$

在这里，我们可以看到这两种解释确实不同。一种解释产生 $m$ 维向量作为结果，而另一种解释产生 $n$ 维向量作为结果！我们怎么解决这个问题？

这里，关键是要明确我们要区分的变量（即是对标量求导还是对向量求导）。在第一种情况下，我们将函数 $f$ 与其参数 $z$ 进行区分，然后替换参数 $A x$ 。在第二种情况下，我们将复合函数 $g (x) = f (A x)$ 直接与 $x$ 进行微分。

我们将第一种情况表示为 $\nabla_{z} f(Ax)$ ，第二种情况表示为 $\nabla_{x} f(Ax)$ 。
保持符号清晰是非常重要的，在以后练习推导的过程中你就会发现。

1.2 黑塞矩阵

假设 $\colon \mathbb{R}^{n} \rightarrow \mathbb{R}$ 是一个函数，它接受 $\mathbb{R}^{n}$ 中的向量并返回实数。那么关于 $x$ 的黑塞矩阵（也有翻译作海森矩阵），写做： $\nabla_{x}^2 f(Ax)$ ，或者简单地说， $H$ 是 $\times n$ 矩阵的偏导数：
$\nabla_{x}^2 f(Ax) \in \mathbb{R}^{n \times n} = \begin{bmatrix} \frac{\partial^2 f(x)}{(\partial x_1)^2} & \frac{\partial^2 f(x)}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f(x)}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2 f(x)}{(\partial x_2)^2} & \cdots & \frac{\partial^2 f(x)}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f(x)}{\partial x_n \partial x_1} & \frac{\partial^2 f(x)}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f(x)}{(\partial x_n)^2} \end{bmatrix}$
换句话说， $\nabla_{x}^2 f(Ax) \in \mathbb{R}^{n \times n}$ ，其：
$(\nabla_{x}^2 f(Ax))_{ij} = \frac{\partial^2 f(x)}{\partial x_i \partial x_j}$
注意：黑塞矩阵通常是对称阵：
$\frac{\partial^2 f(x)}{\partial x_i \partial x_j} = \frac{\partial^2 f(x)}{\partial x_j \partial x_i}$

与梯度相似，只有当 $f (x)$ 为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数的相似，而黑塞矩阵与二阶导数的相似（我们使用的符号也暗示了这种关系）。这种直觉通常是正确的，但需要记住以下几个注意事项。首先，对于一个变量 $\colon \mathbb{R} \rightarrow \mathbb{R}$ 的实值函数，它的基本定义：二阶导数是一阶导数的导数，即：
$\frac{\partial^2 f(x)}{\partial x^2} = \frac{\partial}{\partial{x}} \frac{\partial}{\partial x} f(x)$
然而，对于向量的函数，函数的梯度是一个向量，我们不能取向量的梯度，即：
$\nabla_{x} \nabla_{x} f(x) = \nabla_{x} \begin{bmatrix} \frac{\partial{f(x)}}{\partial{x_{1}}} \\ \frac{\partial{f(x)}}{\partial{x_{2}}} \\ \vdots \\ \frac{\partial{f(x)}}{\partial{x_{n}}} \end{bmatrix}$
上面这个表达式没有意义。因此，黑塞矩阵不是梯度的梯度。然而，下面这种情况却几乎是正确的：如果我们看一下梯度 $\nabla_{x} f(x)$ 的第 $i$ 个元素 $(\nabla_{x} f(x))_i = \frac{\partial f(x)}{\partial{x_i}}$ ，并取关于 $x$ 的梯度我们得到：
$\nabla_{x} \frac{\partial f(x)}{\partial{x_i}} = \begin{bmatrix} \frac{\partial^2{f(x)}}{\partial{x_{i}} \partial{x_{1}}} \\ \frac{\partial^2{f(x)}}{\partial{x_{i}} \partial{x_{2}}} \\ \vdots \\ \frac{\partial^2{f(x)}}{\partial{x_{i}} \partial{x_{n}}} \end{bmatrix}$
这是黑塞矩阵第 $i$ 行（列），所以：
$\nabla_{x}^2 f(x) = \begin{bmatrix} \nabla_{x} (\nabla_{x} f(x))_1 & \nabla_{x} (\nabla_{x} f(x))_2 & \cdots & \nabla_{x} (\nabla_{x} f(x))_n \end{bmatrix}$
简单地说：我们可以说由于： $\nabla_{x}^2 f(x) = \nabla_{x} (\nabla_{x} f(x))^T$ ，只要我们理解，这实际上是取的每个元素的梯度，而不是整个向量的梯度。

最后，请注意，虽然我们可以对矩阵 $\in \mathbb{R}^{n}$ 取梯度，但是在这个地方，我们只考虑对向量 $\in \mathbb{R}^{n}$ 取黑塞矩阵。这会方便很多（事实上，我们所做的任何计算都不要求我们找到关于矩阵的黑森方程），因为关于矩阵的黑森方程就必须对矩阵所有元素求偏导数 $\frac{\partial^2{f(A)}}{\partial{A_{ij}\partial{A_{kl}}}}$ ，将其表示为矩阵相当麻烦。

1.3 二次函数和线性函数的梯度和黑塞矩阵

对于 $\in \mathbb{R}^{n}$ , 设 $f(x) = b^Tx$ 的某些已知向量 $\in \mathbb{R}^{n}$ ，则：
$\sum_{i=1}^n b_i x_i$
所以：
$\frac{\partial{f(x)}}{\partial{x_k}} = \frac{\partial}{\partial{x_k}} \sum_{i=1}^n b_i x_i = b_k$
由此我们可以很容易地看出 $\nabla_x b^Tx = b$ 。这应该与单变量微积分中的类似情况进行比较，其中 $\frac{\partial}{\partial{x}} ax = a$ 。现在考虑 $\in \mathbb{S}^n$ 的二次函数 $f(x) = x^TAx$ 。记住这一点：
$\sum_{i=1}^n \sum_{j=1}^n A_{ij}x_i x_j$
为了取偏导数，我们将分别考虑包括 $x_k$ 和 $x_k^2$ 因子的项：
$\frac{\partial{f(x)}}{\partial{x_k}} = \frac{\partial}{\partial{x_k}} \sum_{i=1}^n \sum_{j=1}^n A_{ij}x_i x_j$
$\frac{\partial}{\partial{x_k}} \bigg[ \sum_{i \ne k} \sum_{j \ne k} A_{ij}x_i x_j + \sum_{i \ne k} A_{ik}x_i x_k \sum_{j \ne k} A_{jk}x_j x_k + A_{kk}x_k^2\bigg]$
$\sum_{i \ne k} A_{ik}x_i + \sum_{j \ne k} A_{jk}x_j + 2A_{kk}x_k$
$\sum_{i=1}^n A_{ik}x_i + \sum_{j=1}^n A_{jk}x_j$
$2\sum_{i=1}^n A_{ki}x_i$
$$
最后一个等式，是因为 $A$ 是对称的（我们可以安全地假设，因为它以二次形式出现）。注意， $\nabla_{x} f(x)$ 的第 $k$ 个元素是 $A$ 和 $x$ 的第 $k$ 行的内积。因此， $\nabla_{x} x^TAx = 2Ax$ 。同样，这应该提醒你单变量微积分中的类似事实，即 $\frac{\partial}{\partial{x}} ax^2 = 2ax$ 。

最后，让我们来看看二次函数 $f(x) = x^TAx$ 的黑塞矩阵（显然，线性函数 $b^Tx$ 的黑塞矩阵为零）。在这种情况下：
$\frac{\partial^2{f(x)}}{\partial{x_k} \partial{x_l}} = \frac{\partial}{\partial{x_k}} \bigg[\frac{\partial{f(x)}}{\partial{x_l}} \bigg] = \frac{\partial}{\partial{x_k}} \bigg[2\sum_{i=1}^n A_{li}x_i \bigg] = 2A_{lk} = 2A_{kl}$
因此，应该很清楚 $\nabla_{x}^2 x^TAx = 2A$ ，这应该是完全可以理解的（同样类似于 $\frac{\partial^2}{\partial{x^2}} ax^2 = 2a$ 的单变量事实）。

简要概括起来：

$\nabla_{x} b^Tx = b$ ；
$\nabla_{x} x^TAx = 2Ax$ ，（如果 $A$ 是对称阵）；
$\nabla_{x}^2 x^TAx = 2A$ ，（如果 $A$ 是对称阵）。

1.4 最小二乘法

让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵 $\in \mathbb{R}^{m \times n}$ （为了简单起见，我们假设 $A$ 是满秩）和向量 $\in \mathbb{R}^m$ ，从而使 $\notin \mathcal{R} (A)$ 。在这种情况下，我们将无法找到向量 $\in \mathbb{R}^n$ ，由于 $A x = b$ ，因此我们想要找到一个向量 $x$ ，使得 $A x$ 尽可能接近 $b$ ，用欧几里德范数的平方 $Ax - b|_2^2$ 来衡量。

使用公式 $x||^2 = x^Tx$ ，我们可以得到：
$Ax - b|_2^2 = (Ax - b)^T (Ax - b)$
$x^TA^TAx - x^TA^Tb - b^TAx + b^Tb$
$x^TA^TAx - 2b^TAx + b^Tb$
根据 $x$ 的梯度，并利用上一节中推导的性质：
$\nabla_{x} (x^TA^TAx - 2b^TAx + b^Tb)$
$\nabla_{x} x^TA^TAx -2\nabla_{x} b^TAx + \nabla_{x} b^Tb$
$2A^TAx - 2A^Tb$
将最后一个表达式设置为零，然后解出 $x$ ，得到了正规方程：
$x = (A^TA)^{-1}A^Tb$
这和我们在线性回归求解方程的最优解中得到的相同。

1.5 行列式的梯度

现在让我们考虑一种情况，我们找到一个函数相对于矩阵的梯度，也就是说，对于 $\in \mathbb{R}^n$ ，我们要找到 $\nabla_{A} |A|$ 。回想一下我们对行列式的讨论：
$\sum_{i=1}^n (-1)^{i+j} A_{ij} |A_{\sim i, \sim j}| \quad \text{(for any $j \in 1, 2, ..., n$)}$
所以：
$\frac{\partial}{\partial{A_{kl}}} |A| = \frac{\partial}{\partial{A_{kl}}} \sum_{i=1}^n (-1)^{i+j} A_{ij} |A_{\sim i, \sim j}|$
$(-1)^{k+l} |A_{\sim k, \sim l}| = (adj(A))_{lk}$
从这里可以知道，它直接从伴随矩阵的性质得出：
$\nabla_{A} |A| = (adj(A))^T = |A|A^{-T}$
现在我们来考虑函数 $\colon \mathbb{S}_{++}^n \rightarrow \mathbb{R}$ ， $f (A) = l o g ∣ A ∣$ 。注意，我们必须将 $f$ 的域限制为正定矩阵，因为这确保了 $\gt 0$ ，因此 $∣ A ∣$ 的对数（这里一般指以 e 为底的自然对数）是实数。在这种情况下，我们可以使用链式法则（没什么奇怪的，只是单变量演算中的普通链式法则）来看看：
$\frac{\partial{log |A|}}{\partial{A_{ij}}} = \frac{\partial{log |A|}}{\partial{|A|}} \frac{\partial{|A|}}{\partial{A_{ij}}} = \frac{1}{|A|} \frac{\partial{|A|}}{\partial{A_{ij}}}$
从这一点我们可以明显看出：
$\nabla_{A} log |A| = \frac{1}{|A|} \nabla_{A} |A| = A^{-1}$
我们可以在最后一个表达式中删除转置，因为 $A$ 是对称的。注意与单值情况的相似性，其中 $\frac{\partial}{\partial{x}} log x = 1/x$ 。

1.6 特征值优化

最后，我们使用矩阵来演算，并以直接导致特征值/特征向量分析的方式求解优化问题。考虑如下等式约束优化问题：
$\max_{x \in \mathbb{R}} x^TAx \quad \text{subject to $||x||_2^2 = 1$}$
对于对称矩阵 $\in \mathbb{S}^n$ 。求解等式约束优化问题的标准方法是采用拉格朗日形式，一种包含等式约束的目标函数，在这种情况下，拉格朗日函数可由以下公式给出：
$\mathcal{L} (x, \lambda) = x^TAx - \lambda x^Tx$
其中， $\lambda$ 被称为与等式约束关联的拉格朗日乘子。可以确定，要使 $x^{*}$ 成为问题的最佳点，拉格朗日的梯度必须在 $x^{*}$ 处为零（这不是唯一的条件，但它是必需的）。也就是说：
$\nabla_{x} \mathcal{L} (x, \lambda) = \nabla_{x} (x^TAx - \lambda x^Tx)$
$2\lambda x = 0$
请注意，这只是线性方程 $\lambda x$ 。这表明在约束条件 $x^Tx = 1$ 下，可能最大化（或最小化） $x^TAx$ 的唯一点是 $A$ 的特征向量。

1.7 常用矩阵求导公式

因为在机器学习中常见的是标量函数 $y$ 对向量 $x$ 的求导（Scalar-by-vector_identities），所以这里只给大家贴出这种情况下的求导公式：
888
更多情况下的求导公式，详见维基百科：
https://en.wikipedia.org/wiki/Matrix_calculus

1.8 伴随矩阵

在线性代数中，一个方形矩阵的伴随矩阵是一个类似于逆矩阵的概念。如果二维矩阵可逆，那么它的逆矩阵和它的伴随矩阵之间只差一个系数，对多维矩阵也存在这个规律。然而，伴随矩阵对不可逆的矩阵也有定义，并且计算伴随矩阵不需要用到除法。

伴随矩阵的定义如下：

设矩阵 $(a_{ij})_{n \times n} \in \mathbb{R}^{n \times n}$ ，将矩阵 $A$ 的元素 $a_{ij}$ 所在的第 $i$ 行和第 $j$ 列元素划去后，剩余的各元素按原来的排列顺序组成的 $n - 1$ 阶矩阵所确定的行列式称为元素 $a_{ij}$ 的余子式，记为 $M_{ij}$ ，称 $A_{ij} = (-1)^{i+j}M_{ij}$ 为元素 $a_{ij}$ 的代数余子式。

方阵 $(a_{ij})_{n \times n} \in \mathbb{R}^{n \times n}$ 的各元素的代数余子式 $A_{ij}$ 所构成的如下矩阵 $A^{*}$ ：
$A^{*} = \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \end{bmatrix}$
该矩阵 $A^{*}$ 则称为矩阵 $A$ 的伴随矩阵。

伴随矩阵具有如下性质：

若 $A$ 可逆，则有：
$A^{*} = |A| A^{-1}, \quad (A^{*})^{*} = \frac{1}{|A|} A$
$A^{*})^{-1} = (A^{-1})^{*}$
$A^{*}A = AA^{*} = |A|E, \quad (A^{*})^{T} = (A^{T})^{*}$
若 $A$ 为 $n$ 阶方阵，则有：
$rank(A^{*}) = \begin{cases} n, & \text{if $rank(A) = n$} \\ 1, & \text{if $rank(A) = n - 1$} \\ 0, & \text{if $rank(A) \lt n - 1$} \end{cases}$
$|A^{*}| = |A|^{n - 1} (n \geq 2), \quad (kA)^{*} = k^{n-1} A^{*}, \quad (A^{*})^{*} = |A|^{n-2} A (n \geq 3)$

june_francis

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
线性代数之矩阵微积分

前言线性代数相关知识的学习笔记，仅供自己备忘及网友学习交流使用。1.1 梯度假设 f ⁣:Rm×n→Rf \colon \mathbb{R}^{m \times n} \rightarrow \mathbb{R}f:Rm×n→R 是将维度为 m×nm \times nm×n 的矩阵作为输入并返回实数值的函数。然后 fff 的梯度（相对于 A∈Rm×nA \in \mathbb{R}^{m ...
复制链接

扫一扫