矩阵求导基础与最小二乘法应用解析

最新推荐文章于 2024-10-09 08:36:38 发布

Lei00764

最新推荐文章于 2024-10-09 08:36:38 发布

阅读量388

点赞数 3

文章标签：矩阵最小二乘法线性代数

本文链接：https://blog.csdn.net/qq_54824848/article/details/142442739

版权

公式速查

请添加图片描述

矩阵求导

符号规定

符号	含义
$\mathbf{A}$ $\mathbf{X}$	矩阵
$\mathbf{a}$ $\mathbf{x}$	（列）向量
$a$ $x$	标量

为什么要矩阵求导？

在计算机世界中，数据通常使用矩阵（或向量、张量）来表示。使用矩阵来表示和操作数据有助于更高效地处理多维数据；使用矩阵表达有助于简化数学公式，形式简洁；矩阵求导几乎是求解优化问题不可避免的必学内容（例如：随机梯度下降法，即求目标函数相对于各个参数的偏导数，多维）

优点：速度块；numpy 数值计算库

矩阵求导的本质

矩阵求导的本质：对于 $\frac{\mathrm{d} \mathbf{A}}{\mathrm{d} \mathbf{B}}$ ，即矩阵 $\mathbf{A}$ 中的每一个元素对矩阵 $\mathbf{B}$ 中的每一个元素求导

存在两种布局：分子布局和分母布局，两者得到的结果为转置关系，下文均采用分母布局

Q：什么叫做向量函数？【答：输出为向量（或矩阵）的函数】

例 1：

$\begin{align} f(x) = \begin{bmatrix} f_1(x) \\ f_2(x) \end{bmatrix} \end{align}$

上述函数完成从 $\mathbb{R} \rightarrow \mathbb{R}^{2}$ 的映射

例 2：

$\begin{align} f(x) = \begin{bmatrix} f_1(x)=x_1 + x_2 & f_2(x)=x_1^2+x_2^2 \\ f_3(x)=x_1^3+x_2^3 & f_4(x)=x_1^4+x_2^4 \end{bmatrix} \end{align}$

上述函数完成从 $\mathbb{R} \rightarrow \mathbb{R}^{2 \times 2}$ 的映射

求导秘术：YX 拉伸

两句口诀：标量不变，向量拉伸；前面横向拉，后面纵向拉

说明：针对 Y 对 X 求导，前面指的是 Y，后面指的是 X；YX 拉伸对应分母布局

下面主要介绍标量对向量、向量对标量、向量对向量三种求导情况

例 1：【标量对向量求导 — 纵向拉】

已知： $f(x) = f(x_1, x_2, …, f_n)$ $\begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix}$

例 2：【向量对标量求导 —— 横向拉】

已知： $\begin{bmatrix} f_1(x) \\ f_2(x) \\ ... \\ f_n(x) \end{bmatrix}$ $x$ 为标量

$\begin{align} \frac{\mathrm{d} f(x)}{\mathrm{d} x} &= \begin{bmatrix} \frac{\partial f_1(x)}{\partial x} & \frac{\partial f_2(x)}{\partial x} & ... & \frac{\partial f_n(x)}{\partial x} \end{bmatrix} \end{align}$

例 3：【向量对向量求导 —— 先横向拉后纵向拉 or 先纵向拉后横向拉】

已知： $\begin{bmatrix} f_1(x_1, x_2, ..., x_n) \\ f_2(x_1, x_2, ..., x_n) \\ ... \\ f_n(x_1, x_2, ..., x_n) \end{bmatrix}$ $\begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix}$

$\begin{align} \frac{\mathrm{d} f(x)}{\mathrm{d} x} &= \begin{bmatrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2} \\ ... \\ \frac{\partial f(x)}{\partial x_n} \end{bmatrix} &= \begin{bmatrix} \frac{\partial f_1(x)}{\partial x_1} & \frac{\partial f_2(x)}{\partial x_1} & ... & \frac{\partial f_m(x)}{\partial x_1} \\ \frac{\partial f_1(x)}{\partial x_2} & \frac{\partial f_2(x)}{\partial x_2} & ... & \frac{\partial f_m(x)}{\partial x_2} \\ ... & ... & ... & ... \\ \frac{\partial f_1(x)}{\partial x_n} & \frac{\partial f_2(x)}{\partial x_n} & ... & \frac{\partial f_m(x)}{\partial x_n} \end{bmatrix}_{n \times m} \end{align}$

常用矩阵求导公式推导

例 1： $\mathbf{a}^T \mathbf{x}$ ，其中 $\mathbf{a} \in \mathbb{R}^{n \times 1}$ ， $\mathbf{x} \in \mathbb{R}^{n \times 1}$

$a_1 x_1 + a_2 x_2 + ... + a_n x_n = \sum_{i=1}^n a_ix_i$

向量内积： $\mathbf{a}^T \mathbf{x} = \mathbf{x}^T \mathbf{a} = [\mathbf{a}, \mathbf{x}]$

例 2： $\mathbf{x}^T \mathbf{A} \mathbf{x}$ ，其中 $\mathbf{x} \in \mathbb{R}^{n \times 1}$ ， $\mathbf{A} \in \mathbb{R}^{n \times n}$

$\begin{align} f(x) &= \mathbf{x}^T \mathbf{A} \mathbf{x} \\ &= \begin{bmatrix} x_1 & x_2 & ... & x_n \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & ... & a_{1n} \\ a_{21} & a_{22} & ... & a_{2n} \\ ... \\ a_{n1} & a_{n2} & ... & a_{nn} \\ \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix} \\ &= \begin{bmatrix} x_1 & x_2 & ... & x_n \end{bmatrix} \begin{bmatrix} a_{11}x_1 + a_{12}x_2 + ... + a_{1n}x_n \\ a_{21}x_1 + a_{22}x_2 + ... + a_{2n}x_n \\ ... \\ a_{n1}x_1 + a_{n2}x_2 + ... + a_{nn}x_n \\ \end{bmatrix} \\ &= (a_{11}x_1 + a_{12}x_2 + ... + a_{1n}x_n)x_1 + ... \end{align}$

$\begin{align} \frac{\mathrm{d} f(x)}{\mathrm{d} x} &= \begin{bmatrix} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_2} \\ ... \\ \frac{\partial f(x)}{\partial x_n} \end{bmatrix} \\ &= \begin{bmatrix} (a_{11}x_1 + a_{12}x_2 + ... + a_{1n}x_n) + (a_{11}x_1 + a_{21}x_2 + ... + a_{n1}x_n) \\ (a_{21}x_1 + a_{22}x_2 + ... + a_{2n}x_n) + (a_{12}x_1 + a_{22}x_2 + ... + a_{n2}x_n) \\ ... \\ (a_{n1}x_1 + a_{n2}x_2 + ... + a_{nn}x_n) + (a_{1n}x_1 + a_{2n}x_2 + ... + a_{nn}x_n) \end{bmatrix} \\ &= (\mathbf{A} + \mathbf{A}^T)\mathbf{x} \end{align}$

矩阵求导应用：最小二乘法

问题描述：给定一个输入矩阵 $\mathbf{X} \in \mathbb{R}^{m \times n}$ 和一个目标值向量 $\mathbf{y} \in \mathbb{R}^m$ ，线性回归模型的参数向量为 $\mathbf{w} \in \mathbb{R}^n$ ，模型的预测值为： $\hat{\mathbf{y}} = \mathbf{X} \mathbf{w}$ 。其中： $\mathbf{X}$ 是输入特征矩阵，每一行表示一个样本，每一列表示一个特征； $\mathbf{w}$ 是模型的待优化参数，即权重向量； $\hat{\mathbf{y}}$ 是模型的预测结果。

在线性回归问题中，最小二乘法的目标是拟合一个线性模型，使得模型的预测值与真实数据之间的误差最小化，即目标函数为： $L(\mathbf{w}) = \|\mathbf{X}\mathbf{w} - \mathbf{y}\|^2$ 。为了找到使得损失函数最小的权重向量 $\mathbf{w}$ ，我们需要对损失函数 $L(\mathbf{w})$ 关于 $\mathbf{w}$ 求导，并令导数为 0，进而求解最优参数。

$\begin{align} L(\mathbf{w}) &= \|\mathbf{X}\mathbf{w} - \mathbf{y}\|^2 \\ &= (\mathbf{X}\mathbf{w} - \mathbf{y})^T (\mathbf{X}\mathbf{w} - \mathbf{y}) \\ &=(\mathbf{w}^T \mathbf{X}^T - \mathbf{y}^T) (\mathbf{X}\mathbf{w} - \mathbf{y}) \\ &= \mathbf{w}^T \mathbf{X}^T \mathbf{X}\mathbf{w} - \mathbf{w}^T \mathbf{X}^T \mathbf{y} - \mathbf{y}^T \mathbf{X}\mathbf{w} + \mathbf{y}^T \mathbf{y} \end{align}$

$\begin{align} \frac{\partial L(\mathbf{w})}{\partial \mathbf{w}} &= (\mathbf{X}^T \mathbf{X} + (\mathbf{X}^T \mathbf{X})^T) \mathbf{w} - \mathbf{X}^T \mathbf{y} - \mathbf{y}^T\mathbf{X} \\ &= 2( \mathbf{X}^T \mathbf{X} \mathbf{w} - \mathbf{X}^T \mathbf{y}) \end{align}$