机器学习中的矩阵求导的一点总结（三种方法求线性回归最佳参数）

最新推荐文章于 2025-03-01 19:55:52 发布

知了不知蝉鸣惊

最新推荐文章于 2025-03-01 19:55:52 发布

阅读量1w

点赞数 20

分类专栏：数学基础文章标签：机器学习矩阵求导线性回归最佳参数

本文链接：https://blog.csdn.net/promisejia/article/details/80159619

版权

数学基础专栏收录该内容

3 篇文章

订阅专栏

本文介绍在机器学习中矩阵求导的技巧，包括全微分与偏导数的关系、迹技巧及常用的矩阵求导公式，并通过线性回归问题的实例演示如何运用这些技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

在实际 机器学习工作中，最常用的就是 实值函数 y 对向量 x或矩阵 X 求导，比如最简单的线性回归问题中由目标函数 $ dJ(w) $求解最佳参数向量 $w $。

矩阵/向量求导问题中要明确是什么量对什么量求导，得到的是什么形式的量
- 实值函数对向量求导，结果是同样维度和方向的向量
- 实值函数对矩阵求导，结果是同样维度的矩阵

本文以线性回归问题中由目标函数 $d J (w)$ 求解最佳参数向量 $w$ 问题为例子，介绍个人总结的一点机器学习矩阵求导的的技巧和方法，其中包括：

1. 全微分与偏导数关系
2. 迹技巧
3. 常用的矩阵求导公式

一. 利用矩阵偏导数与微分的关系

1.1 实值函数对向量的微分

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R4NLJSer-1622637371821)(https://www.zhihu.com/equation?tex=df+%3D+%5Csum_%7Bi%3D1%7D%5En+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+x_i%7Ddx_i+%3D+%5Cfrac%7B%5Cpartial+f%7D%7B%5Cpartial+%5Cboldsymbol%7Bx%7D%7D%5ET+d%5Cboldsymbol%7Bx%7D+)]$

1.2 实值函数对矩阵的微分

在这里插入图片描述

1.3 上面两个公式的应用

由上面的两个公式，若我们可以把标量函数f的全微分形式写出来，那么，对于实值函数对向量求导的类型，只需把全微分中dX前面的项求转置便可得到 $\frac{\partial f}{\partial X}$ 。
- 例子：线性回归
- d $J (w)$
  
  $d (Xw-Y)^T(Xw-Y) + (Xw-Y)^Td(Xw-Y)$
  
  $2(Xw-Y)^TXd{w}$ `
  
  $2*X^TXw - 2*X^TY )^Td{w}$
  
  因此， $\bigtriangledown_w J(w)= 2*X^TXw - 2*X^TY$
应用上面的的两个公式，可以证明一些矩阵求导的公式（见下面第三部分的例子）。
标量函数 f 是矩阵X经加减乘法、行列式、逆、逐元素函数等运算构成，因此我们需要掌握这些向量/矩阵微分的运算法则和迹的技巧。

1.4 运算法则

加减法： $d(X\pm Y) = dX \pm dY$
矩阵乘法： $d (X Y) = d X Y + X d Y$
转置： $d(X^T) = (dX)^T$
迹： $d\text{tr}(X) = \text{tr}(dX)$
逆： $dX^{-1} = -X^{-1}dX X^{-1}$ 此式可在 $XX^{-1}=I$ 两侧求微分来证明。

1.5 迹技巧

矩阵的迹表示矩阵主对角线的总和，矩阵A的迹记为: $\text{tr}(A)$ ，迹有如下性质：

标量套上迹： $\text{tr}(a)$
转置： $\mathrm{tr}(A^T) = \mathrm{tr}(A)$
线性： $\text{tr}(A\pm B) = \text{tr}(A)\pm \text{tr}(B)$ 。
矩阵乘法交换： $\text{tr}(AB) = \text{tr}(BA)$

二用迹的性质简化矩阵求导问题。

性质1 $t r a = a, t r (a A) = a * t r A$ ，a为标量
性质2 $t r (A + B) = t r A + t r B$

性质3 $t r A B = t r B A, t r A B C = t r C A B = t r B C A$

性质4 $tr A = tr A^T$

性质5 $\bigtriangledown_{A} tr (AB) = B^T$
性质6 $\bigtriangledown_{A} tr (ABA^TC) = CAB + C^TAB^T$

实例计算：使用迹的技巧求解线性回归的最佳参数。

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$\bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$\bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

注：
- 这里应该明确的是J(w) 是两个向量的内积，因此为标量，可以应用性质1: tr a = a
- $\bigtriangledown_{w} J(w)$ 是标量J(w)对一个向量 w 求导，其结果是一个向量，维数和w向量相同。

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$=\bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$\bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$\bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

注：
- 这里应用 $Y^TY$ 与 w 无关
- 以及

$t r (A + B) = t r A + t r B$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$\bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$\bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$\bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

注：
- 这里应用 $trAB = tr BA (A=w^TXTX,B=w) $
- 以及 $tr A^T = trA (A= w^TX^TY)$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$\bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$\bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$\bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$\bigtriangledown_{w} tr(wIw^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$(X^TXwI+X^TXIw)-2*\bigtriangledown_{w} tr(Y^TXw)$

注：
- 这里应用
  $\bigtriangledown_{A} trABA^TC = CAB + C^T AB^T (A=w,C=X^TX,B=I),I 是 1 维单位矩阵$
- 以及 $tr A^T = trA (A= w^TX^TY)$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$\bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$\bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$\bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$\bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$\bigtriangledown_{w} tr(wIw^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$(X^TXwI+X^TXIw)-2*\bigtriangledown_{w} tr(Y^TXw)$

$2*X^TXw-2* X^TY$

注：
- 这里应用 $\bigtriangledown_{A} tra (AB) = B^T$

###三. 机器学习中常用的矩阵求导

矩阵/向量求导问题中要明确是什么量对什么量求导，得到的是什么形式的量
- 实值函数对向量求导，结果是同样维度和方向的向量
- 实值函数对矩阵求导，结果是同样维度的矩阵
重要的矩阵求导公式：公式证明可以用微分分解加迹技巧证明。
- $\frac{\partial x^TAx}{\partial x}= (A^T +A)x$
- $\frac{\partial x^Tx}{\partial x}= 2x$
- $\frac{\partial \beta^Tx}{\partial x}= \beta$
- $\frac{\partial x^T\beta}{\partial x}= \beta$
证明第一条公式：
$d{ (x^TAx)}= d(x^T )Ax+x^Td(Ax)$
$Ax)^Tdx+x^T(A^T)^Tdx$
$x^TA^T+x^TA)dx$
则：
$\frac{\partial x^TAx}{\partial x}=(x^TA^T+x^TA)^T= (A^T +A)x$
例子：线性回归问题中由目标函数 $ dJ(w) $求解最佳参数向量 $ w $问题