矩阵求导原理详解

最新推荐文章于 2024-09-18 09:47:57 发布

青羽忆风

最新推荐文章于 2024-09-18 09:47:57 发布

阅读量758

点赞数

分类专栏：机器学习模型原理公式推导文章标签：机器学习矩阵线性代数

本文链接：https://blog.csdn.net/tyw0208/article/details/129213490

版权

机器学习模型原理公式推导专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了矩阵求导的基本概念，包括标量对向量、标量对矩阵的求导，以及向量对向量的导数。特别地，讨论了矩阵的迹在求导中的作用，并给出了机器学习中常见例子。此外，还阐述了矩阵求导链式法则的应用，帮助读者掌握深度学习和机器学习模型中的重要推导技巧。

摘要由CSDN通过智能技术生成

序言

如果你对机器学习|深度学习相关模型的底层原理推导感兴趣的话，矩阵求导的知识是绕不开的。所以本文我想帮助对这一块感兴趣且有疑问的小伙伴对矩阵求导相关知识进行梳理。

一.标量对向量求导

$f(x)=a^Tx\rightarrow\frac{\partial f}{\partial x}=a$

这里 $a$ 和 $x$ 均是列向量（不加T的默认表示列向量，后面出现不再赘述）

跟大家说一下我对公式的理解，这个公式是如何诞生的（ps：我觉得搞清楚公式产生的原因比记住公式本身更重要，掌握创造公式的思路，以后你自己也可以造新的公式）

设 $x=[x_1,x_2,...x_n]^T$ ， $f(x)=a_1x_1+a_2x_2+...a_nx_n$ ，可以发现 $f$ 对每个 $x_i$ 的偏导均为前面的系数 $a_i$ ，此时我们想找一种优雅的规范，把 $x$ 的导数统一组织起来，那最简单的方式就是把其对应的导数也组织成与 $x$ 相同的向量形式，即 $a=[a_1,a_2,...a_n]^T$ ，这样， $f$ 对 $x$ 的导数就可以写成上面那个简单的形式。

二.标量对矩阵求导

2.1 基本定义

先给出结论，下面再分析公式的形成思想：

$df=Tr\left[(\frac{\partial f}{\partial x})^Tdx\right]$

其中， $f$ 为标量， $x$ 和 $\frac{\partial f}{\partial x}$ 均为 m×n 的矩阵。

设：

$x=\left[ \begin{matrix} x_{11} &x_{12} &\cdots &x_{1n}\\x_{21} &x_{22} &\cdots &x_{2n}\\ \vdots &\vdots &\ddots &\vdots \\x_{m1} &x_{m2} &\cdots &x_{mn}\end{matrix} \right]$

则标量 $f$ 对 $x$ 的导数可表示为：

$\frac{\partial f}{\partial x}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}} &\frac{\partial f}{\partial x_{12}} &\cdots &\frac{\partial f}{\partial x_{1n}}\\\frac{\partial f}{\partial x_{21}} &\frac{\partial f}{\partial x_{22}} &\cdots &\frac{\partial f}{\partial x_{2n}}\\ \vdots &\vdots &\ddots &\vdots \\\frac{\partial f}{\partial x_{m1}} &\frac{\partial f}{\partial x_{m2}} &\cdots &\frac{\partial f}{\partial x_{mn}}\end{matrix} \right]$

那么此时考虑另一个问题， $f$ 的微分如何优雅的表示？首先以标量微分为例：设 $z$ 为 $u$ 和 $v$ 的二元函数，则 $dz=\frac{\partial z}{\partial u}du+\frac{\partial z}{\partial v}dv$ ，可以进一步写成 $dz=[\frac{\partial z}{\partial u}, \frac{\partial z}{\partial v}][du,dv]^T$ 。类比到我们这里，在上面已经给出了 $\frac{\partial f}{\partial x}$ 的定义，可以类似的写出 $dx$ 的定义：

$dx=\left[ \begin{matrix} dx_{11} &dx_{12} &\cdots &dx_{1n}\\dx_{21} &dx_{22} &\cdots &dx_{2n}\\ \vdots &\vdots &\ddots &\vdots \\dx_{m1} &dx_{m2} &\cdots &dx_{mn}\end{matrix} \right]$

关键的一步思考来了，如何把 $\frac{\partial f}{\partial x}$ 和 $dx$ 关联起来？是不是像标量运算那样直接乘起来就行了？不过这2个矩阵都是 $m \times n$ ，不能直接相乘。那如果把 $\frac{\partial f}{\partial x}$ 转置一下乘以 $dx$ 呢？欸~好像在运算上可以成立：相当于 $\frac{\partial f}{\partial x}$ 的每一列与 $dx$ 的每一列相乘。还有一点要注意，因为 $f$ 是标量，所以 $df$ 也同样应该是标量，但是 $(\frac{\partial f}{\partial x})^Tdx$ 的结果依旧为矩阵，如何对应呢？

$df$ 理论上的结果应该等于 $\sum_{i}\sum_{j}\frac{\partial f}{\partial x_{ij}}dx_{ij}$ ，即对每个变量的偏导乘以对应变量的微分。想到这，可以惊奇的发现，这个结果就是 $(\frac{\partial f}{\partial x})^Tdx$ 的对角线元素和。大学时学过线性代数都知道，有个定义叫矩阵的迹，用 $Tr$ 表示，含义就是矩阵的对角线元素和。到这里， $df$ 完整的定义就构思出来了：

$df=\sum_{i}\sum_{j}\frac{\partial f}{\partial x_{ij}}dx_{ij}=Tr\left[(\frac{\partial f}{\partial x})^Tdx\right]$

2.2 一个在机器学习中常见的例子

这里举一个在机器学习模型关于损失函数推导时常出现的某个步骤：

设 $f(x)=x^TAx$ ，求 $\frac{\partial f}{\partial x}$

在证明前先列出几个基本定义：

$\begin{aligned} d(AB)=A\cdot dB+dA\cdot B \quad (1) \\ Tr(AB)=Tr(BA) \quad (2)\\ Tr(A)=Tr(A^T) \quad (3) \end{aligned}$

定义(1)类似标量微分乘法的运算，定义(2)和(3)就是线性代数中描述的矩阵迹的性质，这些基础性的知识我就不展开说了（你可能会说我看你就是懒，啊你说得对^-^）

如果你理解上面的几条定义，那下面的证明就比较简单理解了：

$\begin{aligned}df&=d(x^TAx) \\ &=dTr[x^TAx]=Tr[d(x^TAx)]\\&=Tr[x^Td(Ax)+d(x^T)Ax] \\ &=Tr[x^TAdx+x^TA^Tdx] \\ &=Tr[(x^TA+x^TA^T)dx] \\ &=Tr[(A^Tx+Ax)^Tdx] \end{aligned}$

结合前面提到的 $df$ 的定义，可以发现 $A^Tx+Ax$ 就是 $\frac{\partial f}{\partial x}$ 。

三.向量对向量的导数

先给出结论：设 $f=[f_1,f_2,...f_m]^T$ ， $x=[x_1,x_2,...x_n]^T$

$\frac{\partial f}{\partial x}=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_1} &\frac{\partial f_2}{\partial x_1} &\cdots &\frac{\partial f_m}{\partial x_1}\\\frac{\partial f_1}{\partial x_2} &\frac{\partial f_2}{\partial x_2} &\cdots &\frac{\partial f_m}{\partial x_2}\\ \vdots &\vdots &\ddots &\vdots \\\frac{\partial f_1}{\partial x_n} &\frac{\partial f_2}{\partial x_n} &\cdots &\frac{\partial f_m}{\partial x_n}\end{matrix} \right]$

为什么这样定义？我的理解是为了遵循标量对向量的导数定义。怎么说？单独拎一个 $f_i$ 出来可以发现， $f_i$ 对 $x$ 的导数就是 $\frac{\partial f}{\partial x}$ 的第 $i$ 个列向量，而 $x$ 也是列向量，这符合标量对向量的导数定义。那么把多个标量对向量的导数作为列向量拼起来，不就刚好是上面的形式嘛。

至于 $df$ ，其形式甚至比标量对矩阵的导数还要简单：

$df=\left(\frac{\partial f}{\partial x}\right)^Tdx$

结合上面的说法，其实就是 $\frac{\partial f}{\partial x}$ 的每个列向量和 $x$ 做点乘，结果刚好就是 $[df_1,df_2,...df_m]$

大家在学习数学相关的算法时应该都接触过Hessian矩阵和Jacobian矩阵，其实如果你看懂了我前面说的内容，你会惊讶的发现下面的结论（下面公式中 $f$ 为标量， $x$ 为列向量）：

$Hessian=\left[ \begin{matrix} \frac{\partial f}{\partial x_1^2} &\frac{\partial f}{\partial x_1\partial x_2} &\cdots &\frac{\partial f}{\partial x_1\partial x_n}\\\frac{\partial f}{\partial x_2\partial x_1} &\frac{\partial f}{\partial x_2^2} &\cdots &\frac{\partial f}{\partial x_2\partial x_n}\\ \vdots &\vdots &\ddots &\vdots \\\frac{\partial f}{\partial x_n\partial x_1} &\frac{\partial f}{\partial x_n\partial x_2} &\cdots &\frac{\partial f}{\partial x_n^2}\end{matrix} \right]=\frac{\partial^2f}{\partial x^2}$

$Jacobian=\left[ \begin{matrix} \frac{\partial f_1}{\partial x_1} &\frac{\partial f_1}{\partial x_2} &\cdots &\frac{\partial f_1}{\partial x_n}\\\frac{\partial f_2}{\partial x_1} &\frac{\partial f_2}{\partial x_2} &\cdots &\frac{\partial f_2}{\partial x_n}\\ \vdots &\vdots &\ddots &\vdots \\\frac{\partial f_m}{\partial x_1} &\frac{\partial f_m}{\partial x_2} &\cdots &\frac{\partial f_m}{\partial x_n}\end{matrix} \right]=\left(\frac{\partial f}{\partial x}\right)^T\\ (f=[f_1,f_2,...f_m]^T, x=[x_1,x_2,...x_n]^T)$

利用矩阵求导法则，是不是发现曾经让人头痛的2个矩阵看起来异常清晰？

四.矩阵求导链式法则

设 $x_1,x_2,...x_n$ 为一组列向量，且 $x_i$ 是 $x_{i-1}$ 的函数，则：

$\frac{\partial x_n}{\partial x_1}=\frac{\partial x_2}{\partial x_1} \cdot \frac{\partial x_3}{\partial x_2}...\frac{\partial x_n}{\partial x_{n-1}}$

proof：

$\begin{aligned} dx_2&=\left(\frac{\partial x_2}{\partial x_1}\right)^Tdx_1 \\ dx_3&=\left(\frac{\partial x_3}{\partial x_2}\right)^Tdx_2 \\ \vdots \\ dx_n&=\left(\frac{\partial x_n}{\partial x_{n-1}}\right)^Tdx_{n-1} \\ \Rightarrow dx_n&=\left(\frac{\partial x_n}{\partial x_{n-1}}\right)^T\left(\frac{\partial x_{n-1}}{\partial x_{n-2}}\right)^T...\left(\frac{\partial x_2}{\partial x_1}\right)^Tdx_1\\ &=\left(\frac{\partial x_2}{\partial x_1}\cdot \frac{\partial x_3}{\partial x_2}...\frac{\partial x_n}{\partial x_{n-1}}\right)^Tdx_1 \end{aligned}$