向量求导规则--最小二乘法求解最优解

最新推荐文章于 2022-12-26 10:30:00 发布

silent56_th

最新推荐文章于 2022-12-26 10:30:00 发布

阅读量3.6k

点赞数 1

分类专栏：矩阵最小二乘法文章标签：向量机器学习导数

矩阵同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

最小二乘法

2 篇文章 0 订阅

订阅专栏

1. 向量求导规则

此部分主要是对Matrix Differentiation的转载。

2.1. 导数定义（一阶导数）

设 $\vec{y} = \phi (\vec{x})$ ，其中 $\vec y$ 和 $\vec x$ 均为向量。
定义
definition
特别地，如果 $y$ 是标量，则有 $\frac{\partial y}{\partial \vec x}$ 为 $1\times n$ 的行向量；如果 $x$ 是标量，则有 $\frac{\partial \vec y}{\partial x}$ 为 $m\times 1$ 的列向量。

2.2. 导数规则

$\vec y =A\vec x$ ，其中 $A$ 与 $\vec x$ 和 $\vec y$ 无关，则有 $\frac{\partial \vec y}{\partial \vec x} = A$
证明： $y_i = \sum_j a_{ij}x_j \Rightarrow \frac{\partial y_i}{\partial x_j} = a_{ij}$
$\vec y =A\vec x$ ，其中 $A$ 与 $\vec x, \vec z$ 和 $\vec y$ 无关，则有 $\frac{\partial \vec y}{\partial \vec z} = A\frac{\partial \vec x}{\partial \vec z}$
证明： $y_i = \sum_j a_{ij}x_j \Rightarrow \frac{\partial y_i}{\partial z_k} = \sum_j a_{ij}\frac{\partial \vec x_j}{\partial \vec z_k}$
$\alpha = \vec y^TA\vec x$ ，其中 $A$ 与 $\vec x$ 和 $\vec y$ 无关，则有 $\frac{\partial \alpha}{\partial \vec x} = \vec y^TA$ ，而 $\frac{\partial \alpha}{\partial \vec y} = \vec x^TA^T$ 。
证明： $\alpha = (\vec y^T A)\vec x = A'\vec x\Rightarrow \frac{\partial \alpha}{\partial \vec x} = A' = \vec y^T A$
同理， $\alpha^T = (\vec x^TA^T)\vec y = A''\vec y\Rightarrow \frac{\partial \alpha}{\partial \vec y} = A'' = \vec x^TA^T$
$\alpha = \vec x^TA\vec x$ ，其中 $A$ 与 $\vec x$ 无关，则有 $\frac{\partial \alpha}{\partial \vec x} = \vec x^T(A^T+A)$ 。
证明： $\alpha = \sum_i\sum_ja_{ij}x_ix_j\Rightarrow \frac{\partial \alpha}{x_i} = \sum_ja_{ij}x_j+\sum_ja_{ji}x_j\Rightarrow \vec x^TA+\vec x^TA^T = \vec x^T(A^T+A)$
$\alpha = \vec y^T\vec x$ ，则有 $\frac{\partial \alpha}{\partial \vec z} = \vec y^T\frac{\partial \vec x}{\partial \vec z} + \vec x^T\frac{\partial \vec y}{\partial \vec z}$ 。
证明： $\alpha = \sum_i x_iy_i\Rightarrow\frac{\partial \alpha}{\partial z_j} = \sum_i(x_i\frac{\partial y_i}{\partial z_j} + y_i\frac{\partial x_i}{\partial z_j})$
$\alpha = \vec x^T\vec x$ ，则有 $\frac{\partial \alpha}{\partial\vec z} = 2x^T\frac{\partial \vec x}{\partial \vec z}$

之后的就不一一列举了，基本就是chain rule的应用，例如 $\alpha = \vec y^TA\vec x \Rightarrow \frac{\partial \alpha}{\partial \vec z} = \frac{\partial \alpha}{\partial \vec x}\frac{\partial \vec x}{\partial \vec y}+\frac{\partial \alpha}{\partial \vec y}\frac{\partial \vec y}{\partial \vec z} = \vec y^T A\frac{\partial \vec x}{\partial \vec z} + \vec x^TA^T\frac{\partial \vec y}{\partial \vec z}$

2. 一个应用例子：最小二乘法的最优解

Least Square是二分类问题的经典分类器。
具体地，输入 $X$ ，输出 $Y$ ，其中 $Y\in\{0,1\}$ ，预测输出 $\hat y = \beta_0+\sum_ix_i\beta_i$ 。对于 $\hat y \ge 0.5$ 预测输出1，若 $\hat y < 0.5$ 预测输出0。
不同的参数 $\beta$ 对应于不同的超平面，如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义 $RSS(Y,X;\beta) = \sum_i(\hat y_i-y_i)^2 = \sum_i(x_i\beta-y_i)^2= (Y-X\beta)^T(Y-X\beta)$ ，最优分类超平面为 $\text{argmin}_\beta(Y-X\beta)^T(Y-X\beta)$ 。
首先对 $\beta$ 求导， $\frac{\partial RSS}{\partial \beta} = 2(Y-X\beta)^T\frac{\partial (Y-X\beta)}{\partial \beta} = 2(Y-X\beta)^T(\frac{\partial Y}{\partial \beta}-\frac{\partial X\beta}{\partial \beta}) = 2(Y-X\beta)^T(-X)$ 。令导数为零，有 $\hat \beta = (X^TX)^{-1}X^TY$ 。