机器学习中的矩阵求导

vcc12v

已于 2023-05-08 20:38:48 修改

阅读量150

点赞数

文章标签：机器学习矩阵线性代数

于 2023-05-08 20:34:16 首次发布

本文链接：https://blog.csdn.net/vcc12v/article/details/130512448

版权

机器学习中的矩阵求导

前言
向量值映照的微分(向量对向量对求导)
- 向量值函数的复合微分
一般求导流程
例子
参考文献

前言

初学机器学习的时候遇到矩阵或向量的导数总是十分头疼。后来在学习过程中，老师告诉我说记住一些普遍的形式，然后套用即可；也有的教程是说采用行形式或者列形式。但我觉得这些都只是在隔靴搔痒，并没有真正地解决矩阵求导的问题。于是我考虑了张量分析，自以为给出了一个矩阵求导的通用规则。其实只要一切归结于矩阵元的运算就可以很容易地看懂张量缩并的运算，继而导出矩阵求导。这其实是一种非常形而上的计算方法，但我个人还是很喜欢自己导出的这个计算方法。

由于线性代数和统计学习的向量普遍都是以列向量为主，本文推导中的向量统一都是列向量。

向量值映照的微分(向量对向量对求导)

给定一个向量值映照, $\boldsymbol{f}:\mathbb{R}^m\rightarrow \mathbb{R}^n$ .

$\boldsymbol{f}$ 在 $\boldsymbol{x}$ 处可微是指 $\exists \mathscr{A}\in Hom\left(\mathbb{R}^m,\mathbb{R}^n\right)$ , s.t. $\boldsymbol{f}\left(\boldsymbol{x}+\Delta \boldsymbol{x}\right)-\boldsymbol{f}\left(\boldsymbol{x}\right)=\mathscr{A}\left(\boldsymbol{x}\right)\left(\Delta \boldsymbol{x}\right)+o\left(\Delta \boldsymbol{x}\right)$ .

Remark: $Hom\left(\mathbb{R}^m,\mathbb{R}^n\right)$ 表示从 $\mathbb{R}^m$ 到 $\mathbb{R}^n$ 的线性映射的全体, $\mathscr{A}\left(\boldsymbol{x}\right)$ 是 $\boldsymbol{x}$ 的函数, 微分在每一点可能不同。

因为是线性映射，所以有

$\begin{equation} \begin{split} \mathscr{A} \left(\begin{matrix} \Delta {x}^1 \\ \vdots \\ \Delta {x}^m \end{matrix}\right) &=\mathscr{A} \left(\begin{matrix} \Delta {x}^1 \\ \vdots \\ 0 \end{matrix}\right)+\cdots+\mathscr{A} \left(\begin{matrix} 0 \\ \vdots \\ \Delta {x}^m \end{matrix}\right) \\& = \Delta {x}^1\mathscr{A} \left(\begin{matrix} 1 \\ \vdots \\ 0 \end{matrix}\right)+\cdots+\Delta {x}^m\mathscr{A} \left(\begin{matrix} 0 \\ \vdots \\ 1 \end{matrix}\right) \\& = \left[\mathscr{A} \left(\begin{matrix} 1 \\ \vdots \\ 0 \end{matrix}\right)\cdots\mathscr{A} \left(\begin{matrix} 0 \\ \vdots \\ 1 \end{matrix}\right)\right] \left(\begin{matrix} \Delta {x}^1 \\ \vdots \\ \Delta {x}^m \end{matrix}\right) \\&= \boldsymbol{A} \Delta \boldsymbol{x}\simeq \left(\begin{matrix} \Delta {f}^1 \\ \vdots \\ \Delta {f}^n \end{matrix}\right) \end{split} \end{equation}$

其中矩阵 $\boldsymbol{A}(n\times m)$ 为线下映射 $\mathscr{A}$ 在典则基下的表示.

Remark: 很多资料中都是从多对一的角度出发进行偏导数和多变量微分的解释, 但其实以线下映射的观点从一对多的角度出发可以得到更深刻和基本的结果.

记 $\boldsymbol{i}_i$ 为 $i$ th典则基向量, i.e., $\left[0,\cdots, 1, \cdots ,0\right]^\top$ .

让我们关注 $\mathscr{A}\boldsymbol{i}_i$ ，有

$\begin{equation} \boldsymbol{f}\left(\boldsymbol{x}+ \lambda \boldsymbol{i}_i\right)-\boldsymbol{f}\left(\boldsymbol{x}\right) =\lambda\mathscr{A}\boldsymbol{i}_i + o\left(\lambda\right) \end{equation}$

$\begin{equation} lim_{\lambda \rightarrow 0} \frac{\boldsymbol{f}\left(\boldsymbol{x}+ \lambda \boldsymbol{i}_i\right)-\boldsymbol{f}\left(\boldsymbol{x}\right)}{\lambda} =\mathscr{A}\boldsymbol{i}_i =: \frac{\partial \boldsymbol{f}}{\partial x^i} =\left(\frac{\partial{f}^1}{\partial x^i},\cdots, \frac{\partial{f}^n}{\partial x^i}\right)^\top \end{equation}$

Remark: 向量值(多元)自变量放分母是不好做的, 所以一维一维地处理了, 就是曲线的切向量. $\boldsymbol{x}$ 不动, $\boldsymbol{f}\left(\boldsymbol{x}+ \lambda \boldsymbol{i}_i\right)$ 不就是在 $x^i$ 坐标线上。以 $\lambda$ 为参数的曲线. 向量值(多元)因变量放分子是好处理的, 因为每一个分量 $f^n$ 关于 $x^i$ 的微分是在一元函数微积分中就可以计算了。

$\begin{equation} \mathbb{R}^{n\times m}\ni\boldsymbol{A}=\left(\mathscr{A}\boldsymbol{i}_1,\cdots ,\mathscr{A}\boldsymbol{i}_n \right)=\left(\frac{\partial\boldsymbol{f}}{\partial x^1},\cdots, \frac{\partial \boldsymbol{f}}{\partial x^m}\right)=:D\boldsymbol{f} \end{equation}$

其中 $D f$ 被称为Jacobian矩阵。

向量值函数的复合微分

$\boldsymbol{f}:\mathbb{R}^m\rightarrow \mathbb{R}^n, \boldsymbol{x}\mapsto \boldsymbol{y}$ .

$\boldsymbol{g}:\mathbb{R}^n\rightarrow \mathbb{R}^p$ .

$\begin{equation} \boldsymbol{f}\left(\boldsymbol{x}+\Delta \boldsymbol{x}\right)-\boldsymbol{f}\left(\boldsymbol{x}\right)=D\boldsymbol{f}\left(\boldsymbol{x}\right)\left(\Delta \boldsymbol{x}\right)+o\left(\Delta \boldsymbol{x}\right) \end{equation}$

$\begin{equation} \boldsymbol{g}\left(\boldsymbol{y}+\Delta \boldsymbol{y}\right)-\boldsymbol{g}\left(\boldsymbol{y}\right) =D\boldsymbol{g}\left(\boldsymbol{y}\right)\left(\Delta \boldsymbol{y}\right)+o\left(\Delta \boldsymbol{y}\right) \end{equation}$

where $\boldsymbol{y} = \boldsymbol{f}\left(\boldsymbol{x}\right)$

$\begin{equation} \begin{split} \boldsymbol{g}\left(\boldsymbol{y}+\Delta \boldsymbol{y}\right) &=\boldsymbol{g}\left[\boldsymbol{y}+\boldsymbol{f}\left(\boldsymbol{x}+\Delta \boldsymbol{x}\right)-\boldsymbol{f}\left(\boldsymbol{x}\right)+o\left(\Delta \boldsymbol{x}\right)\right] \\&=\boldsymbol{g}\left[\boldsymbol{y}+D\boldsymbol{f}\left(\boldsymbol{x}\right)\left(\Delta \boldsymbol{x}\right)+o\left(\Delta \boldsymbol{x}\right)\right] \\&=\boldsymbol{g}\left(\boldsymbol{y}\right) +D\boldsymbol{g}\left(\boldsymbol{y}\right)D\boldsymbol{f}\left(\boldsymbol{x}\right) \left(\Delta \boldsymbol{x}\right)+o\left(\Delta \boldsymbol{x}\right) \end{split} \end{equation}$

Remar: 我们看到了微分 $D f$ 就是一个线性映射, 它的定义域和值域与 $f$ 是一样的，本质上 $D f$ 就是 $f$ 的线性化。

一般求导流程

机器学习中一般是某个标量 $R$ 关于矩阵 $\boldsymbol{X}\in \mathbb{R}^{I\times J}$ 或向量的导数 $\boldsymbol{x}\in \mathbb{R}^{I\times 1}$ , 导数维数应与原向量、原矩阵相同。总体的原则是运用矩阵乘法对元素进行求导.

运用einsum对矩阵进行操作可大大简化求导难度。

记矩阵 $\boldsymbol{X}$ 的第 $i$ 行第 $j$ 列元素记为 $X_{i}^{\cdot j}$ , 其转置有 $(X^\top)_{i}^{\cdot j}=X_{j}^{\cdot i}$ .

但是向量仅有一个维度，其仅存在指标上下的变化，即 $(x^\top) _i= x^i$ ， $(x^\top)^i=x_i$

设有一个映射为 $f:\mathbb{R}^{I\times J} \rightarrow \mathbb{R}$ ,
记 $\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{D}$ , 有

$\begin{equation} \frac{\partial f}{\partial X_{i}^{\cdot j}}=D_{i}^{\cdot j} \end{equation}$

设有一个映射为 $\boldsymbol{X}:\mathbb{R} \rightarrow \mathbb{R}^{I\times J}, t\mapsto \boldsymbol{X}$ ,
记 $\frac{\partial \boldsymbol{X}}{\partial t}=\boldsymbol{D}$ ,

$\begin{equation} \frac{\partial X_{i}^{\cdot j}}{\partial t}=D_{i}^{\cdot j} \end{equation}$

例子

Proposition:
Given $\boldsymbol{X}\in \mathbb{R}^{I\times J}$ and $\boldsymbol{A}\in \mathbb{R}^{J\times I}$

$\begin{equation} \frac{\partial Tr\left(\boldsymbol{AX}\right)}{\partial\boldsymbol{X}} =\boldsymbol{A}^\top \in \mathbb{R}^{I\times J} \end{equation}$

Proof: $Tr\left(\boldsymbol{AX}\right) = A_{r}^{\cdot s}X_{s}^{\cdot r}$ ,
$\frac{\partial Tr\left(\boldsymbol{AX}\right)}{\partial X_{i}^{\cdot j}} = \delta _{sr}^{ij} A_{r}^{\cdot s}=A_{j}^{\cdot i}=\left(A^\top\right)_{i}^{\cdot j}$

Proposition:
Given $\boldsymbol{X}\in \mathbb{R}^{I\times J}$ and $\boldsymbol{A}\in \mathbb{R}^{I\times I}$

$\begin{equation} \frac{\partial Tr\left(\boldsymbol{X}^\top \boldsymbol{AX}\right)}{\partial\boldsymbol{X}} =\boldsymbol{AX}+\boldsymbol{A}^\top\boldsymbol{X} \in \mathbb{R}^{I\times J} \end{equation}$

Proof: $Tr\left(\boldsymbol{X}^\top \boldsymbol{AX}\right)= X_{s}^{\cdot r}A_{s}^{\cdot t}X_{t}^{\cdot r}$

$\begin{equation} \begin{split} \frac{\partial Tr\left(\boldsymbol{X}^\top \boldsymbol{AX}\right)}{\partial X_{i}^{\cdot j}} &=\delta_{sr}^{ij}A_{s}^{\cdot t}X_{t}^{\cdot r} +X_{s}^{\cdot r}A_{s}^{\cdot t}\delta_{tr}^{ij} \\&=A_{i}^{\cdot t}X_{t}^{\cdot j} +X_{s}^{\cdot j}A_{s}^{\cdot i} =A_{i}^{\cdot t}X_{t}^{\cdot j} +\left(A^\top\right)_{i}^{\cdot s}X_{s}^{\cdot j} \\&=\left(AX\right)_{i}^{\cdot j}+\left(A^\top X\right)_{i}^{\cdot j} \end{split} \end{equation}$

Remark: 进行矩阵元操作的时候注意指标的行列性与次序即可确定矩阵的转置与否和次序, 注意如果是对 $X_i^{\cdot j}$ , 则最后的表达式的第一个下指标是 $i$ 最后一个上指标是 $j$ 。

当涉及比较复杂的复合运算是，就需要用到以下定理

Theorem:

Given two matrices $\boldsymbol{X}\in \mathbb{R}^{I\times J}$ and $\boldsymbol{Y}\in \mathbb{R}^{M\times N}$ and a function $f\left(\boldsymbol{Y}\left(\boldsymbol{X}\right)\right)\in \mathbb{R}$ .

$\begin{equation} \frac{\partial f}{\partial X_{i}^{\cdot j}} =\frac{\partial f}{\partial Y_{k}^{\cdot l}} \frac{\partial Y_{k}^{\cdot l}}{\partial X_{i}^{\cdot j}} \end{equation}$

Remark: 这个式子用了爱因斯坦求和记号是个求和的式子, 应用了多元函数复合求导, 将每个 $Y_{k}^{\cdot l}$ 都看作 $X_{i}^{\cdot j}$ 的函数. 新手经常出错是直接进行了偏微分抵消, 事实上要把偏微分写成全微分(求和形式)才可以抵消。

Proposition:

Given $\boldsymbol{X}\in \mathbb{R}^{I\times I}$ invertiable
$\begin{equation} \frac{\partial \boldsymbol{X}^{-1}}{\partial X_{i}^{\cdot j}}= -\boldsymbol{X}^{-1}\frac{\partial \boldsymbol{X}}{\partial X_{i}^{\cdot j}}\boldsymbol{X}^{-1} \end{equation}$

$\begin{equation} \frac{\partial \left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot l}}{\partial X_{i}^{\cdot j}}= -\left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot i}\left(\boldsymbol{X}^{-1}\right)_{j}^{\cdot l} \end{equation}$

Proof: Considering the fact that $\boldsymbol{X}^{-1}\boldsymbol{X}=\boldsymbol{I}$ , take derivative of the both sides,

$\begin{equation} \frac{\partial \boldsymbol{X}^{-1}}{\partial X_{i}^{\cdot j}}\boldsymbol{X} +\boldsymbol{X}^{-1}\frac{\partial \boldsymbol{X}}{\partial X_{i}^{\cdot j}}=\boldsymbol{0} \end{equation}$

$\begin{equation} \begin{split} \frac{\partial \left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot l}}{\partial X_{i}^{\cdot j}} &=\left(-\boldsymbol{X}^{-1}\frac{\partial \boldsymbol{X}}{\partial X_{i}^{\cdot j}}\boldsymbol{X}^{-1}\right)_{k}^{\cdot l} \\&=-\left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot s} \left(\frac{\partial \boldsymbol{X}}{\partial X_{i}^{\cdot j}}\right)_{s}^{\cdot t} \left(\boldsymbol{X}^{-1}\right)_{t}^{\cdot l} \\&=-\left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot s} \left(\frac{\partial X_{s}^{\cdot t}}{\partial X_{i}^{\cdot j}}\right) \left(\boldsymbol{X}^{-1}\right)_{t}^{\cdot l} \\&=-\left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot s} \delta^{st}_{ij} \left(\boldsymbol{X}^{-1}\right)_{t}^{\cdot l} =-\left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot i} \left(\boldsymbol{X}^{-1}\right)_{j}^{\cdot l} \end{split} \end{equation}$

$\square$

Remark: 其中运用到了元素的求导是求导的元素，而 $\frac{\partial \left(\boldsymbol{X}^{-1}\right)_{k}^{\cdot l}}{\partial X_{i}^{\cdot j}}$ 是矩阵对矩阵的求导，因而求导结果是一个四阶张量。

Proposition:
Given $\boldsymbol{X}\in \mathbb{R}^{I\times I}$ invertible

$\begin{equation} \frac{\partial Tr\left(\boldsymbol{AX}^{-1}\boldsymbol{B}\right)}{\partial \boldsymbol{X}}= -\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top} \end{equation}$

Proof:

$\frac{\partial A_{r}^{\cdot s}(X^{-1})_{s}^{\cdot t}B_{t}^{\cdot r}}{\partial X_{i}^{\cdot j}} =-A_{r}^{\cdot s}(X^{-1})_{s}^{\cdot i}(X^{-1})_{j}^{\cdot t}B_{t}^{\cdot r} =-(X^{-\top})_{i}^{\cdot s}(A^{\top})_{s}^{\cdot r}(B^{\top})_{r}^{\cdot t} (X^{-\top})_{t}^{\cdot j}$

$\square$

Proposition:

$\begin{equation} \frac{\partial det\boldsymbol{X}}{\partial \boldsymbol{X}}=det\boldsymbol{X}\cdot(\boldsymbol{X}^{-\top}) \end{equation}$

$\begin{equation} \frac{\partial \log \left|det\boldsymbol{X}\right|}{\partial \boldsymbol{X}}=\boldsymbol{X}^{-\top} \end{equation}$

Proof:

注意在此命题中并没有采用爱因斯坦求和记号,

$\begin{equation} det\boldsymbol{X}=\sum_{j}X_{ij}A_{ij} \end{equation}$

where $A_{ij}$ 是 $X_{ij}$ 的代数余子式. $\boldsymbol{X}^*$ 是 $\boldsymbol{X}$ 的伴随矩阵,
有 $\boldsymbol{X}^{-1}=det\boldsymbol{X}(\boldsymbol{X}^*)$ , $(\boldsymbol{X}^*)^\top=\boldsymbol{A}$

$\begin{equation} \begin{split} &\frac{\partial det\boldsymbol{X}}{\partial X_{ij}} =A_{ij}\Rightarrow \\& \frac{\partial det\boldsymbol{X}}{\partial \boldsymbol{X}}=\boldsymbol{A}= (\boldsymbol{X}^*)^\top =det\boldsymbol{X}\cdot(\boldsymbol{X}^{-\top}) \end{split} \end{equation}$

Proposition:

$\begin{equation} \frac{\partial det\left(\boldsymbol{AXB}\right)}{\partial \boldsymbol{X}}=det\left(\boldsymbol{AXB}\right)\cdot(\boldsymbol{X}^{-\top}) \end{equation}$

Proof:

$\begin{equation} \frac{\partial det\left(\boldsymbol{AXB}\right)}{\partial X_i^{\cdot j}}= \frac{\partial det\left(\boldsymbol{AXB}\right)}{\partial \left(\boldsymbol{AXB}\right)_k^{\cdot l}} \frac{\partial \left(\boldsymbol{AXB}\right)_k^{\cdot l}}{\partial X_i^{\cdot j}} =\dots \end{equation}$

参考文献

Matrix Cookbook
https://www.bilibili.com/video/BV18a411M7Jd/?spm_id_from=333.788&vd_source=107a981693181bff01f387d4a6c314c9

vcc12v

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的矩阵求导

机器学习中的矩阵求导前言向量值映照的微分(向量对向量对求导)向量值函数的复合微分一般求导流程例子参考文献前言初学机器学习的时候遇到矩阵或向量的导数总是十分头疼。后来在学习过程中，老师告诉我说记住一些普遍的形式，然后套用即可；也有的教程是说采用行形式或者列形式。但我觉得这些都只是在隔靴搔痒，并没有真正地解决矩阵求导的问题。于是我考虑了张量分析，自以为给出了一个矩阵求导的通用规则。其实只要一切归结于矩阵元的运算就可以很容易地看懂张量缩并的运算，继而导出矩阵求导。这其实是一种非常形而上的计算方法，但我个人还是
复制链接

扫一扫