机器学习笔记（VI）线性模型(II)多维最小二乘法

最新推荐文章于 2024-04-18 11:02:33 发布

王先生的副业

最新推荐文章于 2024-04-18 11:02:33 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习机器学习文章标签：机器学习数据

本文链接：https://blog.csdn.net/uncle_gy/article/details/78786735

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

数据集是

D = {(x 1, y 1), (x 2, y 2), \dots, (x m, y m)} 其 中 x i = (x i 1; x i 2; \dots; x i d), y i \in R

$D=\left\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),\dots,(\mathbf{x_m},y_m)\right\}\\ \text{其中}\\ \mathbf{x_i}=(x_{i1};x_{i2};\dots;x_{id}),y_i\in\mathbb{R}$
此时试图学得

f (x i) = w T x i + b, 使 得 f (x i) \approx y i

$f(\mathbf{x_i})=w^T\mathbf{x_i}+b,使得f(\mathbf{x_i})\approx{y_i}$
也称为多元线性回归
此时可以使用最小二乘法来对

w $\mathbf{w}$ 和

b $b$ 进行估计
步骤：
1：将

w $\mathbf w$ 和

b $b$ 吸入向量形式

w^=(w;b), $\hat{\mathbf{w}}=(\mathbf{w};b),$
2：将数据集

D $D$ 表示为一个

m×(d+1) $m\times{(d+1)}$ 大小的矩阵

X $X$

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$X=\left( \begin{matrix} x_{11}& x_{12}&\dots&x_{1d}&1 \\ x_{21}& x_{22}&\dots&x_{2d}&1 \\ \vdots&\vdots&\ddots&\vdots&\vdots&\\ x_{m1}& x_{m2}&\dots&x_{md}&1 \\ \end{matrix} \right)=\left( \begin{matrix} \mathbf x_{1}^{T}& 1 \\ \mathbf x_{2}^{T}& 1 \\ \vdots& \vdots \\ \mathbf x_{m}^{T}& 1 \\ \end{matrix} \right)$
3:把标记写成向量形式

y = (y 1; y 2; \dots; y m)

$\mathbf {y}=(y_1;y_2;\cdots;y_m)$
于是类似一维形式

w^* = arg min w^(y - X w^) T (y - X w^)

$\hat{\mathbf {w}}^*=\mathop{\arg\min}\limits_{\hat{\mathbf {w}}}(\mathbf {y}-X\hat{\mathbf {w}})^{T}(\mathbf {y}-X\hat{\mathbf {w}})$
4:令

Ew^=(y−Xw^)T(y−Xw^) $E_{\hat{\mathbf {w}}}=(\mathbf {y}-X\hat{\mathbf {w}})^{T}(\mathbf {y}-X\hat{\mathbf {w}})$ ,对

w^ $\hat{\mathbf {w}}$ 进行求导

\partial E w ^ \partial w ^

$\dfrac{\partial{E_{\hat{\mathbf {w}}}}}{\partial{\hat{\mathbf {w}}}}$
展开

(y - X w^) T (y - X w^) = (y T - w^T X T) (y - X w^) = y T y - y T X w^- w^T X T y + w^T X T X w^(1)

$\begin{aligned} (\mathbf {y}-X\hat{\mathbf {w}})^{T}(\mathbf {y}-X\hat{\mathbf {w}})&=(\mathbf {y}^T-\hat{\mathbf {w}}^TX^T)(\mathbf {y}-X\hat{\mathbf {w}})\\ &=\mathbf {y}^T\mathbf {y}-\mathbf {y}^TX\hat{\mathbf {w}}-\hat{\mathbf {w}}^TX^T\mathbf {y}+\hat{\mathbf{w}}^TX^TX\hat{\mathbf{w}}\tag{1}\\ \end{aligned}$
如何对式

1 $1$ 进行化简

y T y - y T X w^- w^T X T y + w^T X T X w^↓ ↓ (y T y) - (y T X w^+ w^T X T y) + (w^T X T X w^)

$\mathbf {y}^T\mathbf {y}-\mathbf {y}^TX\hat{\mathbf {w}}-\hat{\mathbf {w}}^TX^T\mathbf {y}+\hat{\mathbf{w}}^TX^TX\hat{\mathbf{w}}\\ \downarrow\downarrow\\ (\mathbf {y}^T\mathbf {y})-(\mathbf {y}^TX\hat{\mathbf {w}}+\hat{\mathbf {w}}^TX^T\mathbf {y})+(\hat{\mathbf{w}}^TX^TX\hat{\mathbf{w}})$
一共有三个部分
第一个部分：

\partial y T y \partial w ^= 0

$\dfrac{\partial{\mathbf{y^Ty}}}{\partial{\mathbf{\hat{w}}}}=0$
因为对

w^ $\mathbf{\hat{w}}$ 求导，

yTy $\mathbf{y}^T\mathbf{y}$ 相当于常数，因此求偏导的结果是0
第二个部分：
对于

y T X w^+ w^T X T y (2)

$\mathbf {y}^TX\hat{\mathbf {w}}+\hat{\mathbf {w}}^TX^T\mathbf {y}\tag{2}$
在这里

yTXw^ $\mathbf {y}^TX\hat{\mathbf {w}}$ 和

w^TXTy $\hat{\mathbf {w}}^TX^T\mathbf {y}$ 都是

1×1 $1\times1$ 的矩阵此时

y T X w^= (w^T X T y) T

$\mathbf {y}^TX\hat{\mathbf {w}}=(\hat{\mathbf {w}}^TX^T\mathbf {y})^T$
对于

1×1 $1\times1$ 的矩阵

A $\mathbf{A}$ 有

AT=A $\mathbf{A}^T=\mathbf{A}$
因此对于式

(2) $(2)$ 有

(2) = 2 (y T X w^)

$(2)=2(\mathbf {y}^TX\hat{\mathbf {w}})$
于是

\partial y T X w ^ \partial w ^= ?

$\dfrac{\partial{\mathbf {y}^TX\hat{\mathbf {w}}}}{\partial{\mathbf{\hat{w}}}}=?$
分开来看

y T = (y 1, y 2, \dots, y m); X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟; w^= (w 1; w 2; \dots; w d; b);

$\mathbf{y^T}=(y_1,y_2,\dots,y_m);\\ X=\left( \begin{matrix} x_{11}& x_{12}&\dots&x_{1d}&1 \\ x_{21}& x_{22}&\dots&x_{2d}&1 \\ \vdots&\vdots&\ddots&\vdots&\vdots&\\ x_{m1}& x_{m2}&\dots&x_{md}&1 \\ \end{matrix} \right);\\ \mathbf{\hat{w}}=(w_1;w_2;\dots;w_d;b);$
相乘的结果

y T X = (\sum i = 1 m x i 1 y i, \sum i = 1 m x i 2 y i \dots, \sum i = 1 m x i d y i, \sum i = 1 m y i) (part1)

$\mathbf{y^T}X=\left( \sum\limits_{i=1}^{m}x_{i1}y_i, \sum\limits_{i=1}^{m}x_{i2}y_i\dots,\sum\limits_{i=1}^{m}x_{id}y_i,\sum\limits_{i=1}^{m}y_i \right)\tag{part1}$

(p a r t 1) w^= (\sum i = 1 m x i 1 y i, \sum i = 1 m x i 2 y i \dots, \sum i = 1 m x i d y i, \sum i = 1 m y i) \times (w 1; w 2; \dots; w d; b) = \sum j = 1 d \sum i = 1 m x i j y i w j + b \sum i = 1 m y i (part1sum)

$\begin{aligned} (part1)\mathbf{\hat{w}}&=\left( \sum\limits_{i=1}^{m}x_{i1}y_i, \sum\limits_{i=1}^{m}x_{i2}y_i\dots,\sum\limits_{i=1}^{m}x_{id}y_i,\sum\limits_{i=1}^{m}y_i \right)\times(w_1;w_2;\dots;w_d;b)\\ &=\sum\limits_{j=1}^{d}\sum\limits_{i=1}^{m}x_{ij}y_iw_j+b\sum\limits_{i=1}^{m}y_i \end{aligned}\tag{part1sum}$
求导

\partial p a r t 1 s u m \partial w ^= ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \partial p a r t 1 s u m \partial w 1 \partial p a r t 1 s u m \partial w 2 ⋮ \partial p a r t 1 s u m \partial w d \partial p a r t 1 s u m \partial b ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum i = 1 m x i 1 y i \sum i = 1 m x i 2 y i ⋮ \sum i = 1 m x i d y i \sum i = 1 m y i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

$\dfrac{\partial{part1sum}}{\partial{\mathbf{\hat{w}}}}=\left( \begin{matrix} \dfrac{\partial{part1sum}}{\partial{w_1}}\\ \dfrac{\partial{part1sum}}{\partial{w_2}}\\ \vdots \\ \dfrac{\partial{part1sum}}{\partial{w_d}}\\ \dfrac{\partial{part1sum}}{\partial{b}} \end{matrix} \right)=\left( \begin{matrix} \sum\limits_{i=1}^{m}x_{i1}y_i\\ \sum\limits_{i=1}^{m}x_{i2}y_i\\ \vdots \\ \sum\limits_{i=1}^{m}x_{id}y_i\\ \sum\limits_{i=1}^{m}y_i \\ \end{matrix} \right)$
结果是一个

(d+1)×1 $(d+1)\times1$ 的矩阵也就是列向量
而

X T y = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 12 ⋮ x 1 d 1 x 21 x 22 ⋮ x 2 d 1 \dots \dots ⋱ \dots \dots x m 1 x m 2 ⋮ x m d 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ \times ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ y 1 y 2 ⋮ y m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum i = 1 m x i 1 y i \sum i = 1 m x i 2 y i ⋮ \sum i = 1 m x i d y i \sum i = 1 m y i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \partial p a r t 1 s u m \partial w ^

$X^T\mathbf{y}=\left(\begin{matrix} x_{11}&x_{21}&\cdots&x_{m1}\\ x_{12}&x_{22}&\cdots&x_{m2}\\ \vdots&\vdots&\ddots&\vdots\\ x_{1d}&x_{2d}&\cdots&x_{md}\\ 1&1&\cdots&1\\ \end{matrix} \right)\times\left(\begin{matrix} y_1\\ y_2\\ \vdots\\ y_m \end{matrix}\right)=\left( \begin{matrix} \sum\limits_{i=1}^{m}x_{i1}y_i\\ \sum\limits_{i=1}^{m}x_{i2}y_i\\ \vdots \\ \sum\limits_{i=1}^{m}x_{id}y_i\\ \sum\limits_{i=1}^{m}y_i \\ \end{matrix} \right)=\dfrac{\partial{part1sum}}{\partial{\mathbf{\hat{w}}}}$
同样的方法可以得到

\partial ( w ^ T X T X w ^ ) \partial w ^= 2 X T X w^

$\dfrac{\partial{(\hat{\mathbf{w}}^TX^TX\hat{\mathbf{w}})}}{\partial{\mathbf{\hat{w}}}}=2X^TX\hat{\mathbf{w}}$
于是得到最终结果

\partial E w ^ w ^= 2 X T (X w^- y)

$\dfrac{\partial{E_{\hat{\mathbf{w}}}}}{ \hat{\mathbf{w}}}=2X^T(X\hat{\mathbf{w}}-\mathbf{y})$
5:令求导结果等于0

\partial E w ^ w ^= 2 X T (X w^- y) X T X w^= 0 = X T y

$\begin{aligned} \dfrac{\partial{E_{\hat{\mathbf{w}}}}}{ \hat{\mathbf{w}}}=2X^T(X\hat{\mathbf{w}}-\mathbf{y})&=0\\ X^TX\hat{\mathbf{w}}&=X^T\mathbf{y} \end{aligned}$
此时如果有解则：

XTX $X^TX$ 必须是可逆矩阵
所以得到：