【机器学习】最小二乘法（代数&矩阵推导）

chaoql

已于 2023-12-21 17:00:38 修改

阅读量4.4k

点赞数 6

分类专栏：数据科学 # 机器学习文章标签：机器学习最小二乘法矩阵

于 2020-09-05 14:58:09 首次发布

本文链接：https://blog.csdn.net/qq_43510916/article/details/108418360

版权

数据科学同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

机器学习

20 篇文章 0 订阅

订阅专栏

文章目录

前置知识
- 平方损失函数
最小二乘法

前置知识

平方损失函数

在这里插入图片描述假设上图的红线就是拟合出的函数 $y=w_0+w_1x$ ，那么每个数据点（xi,yi）所对应的误差就是 $y_{i}-(w_0+w_1x_i)$ 上面的误差往往也称之为「残差」。但是在机器学习中，我们更喜欢称作「损失」，即真实值和预测值之间的偏离程度。那么，对 𝑛个全部数据点而言，其对应的残差损失总和就为：

$\sum_{i=1}^{n}(y_{i}-(w_0+w_1x_i))$

更进一步，在线性回归中，我们一般使用残差的平方和来表示所有样本点的误差。公式如下：

$\sum_{i=1}^{n}(y_{i}-(w_0+w_1x_i))^2$

使用残差平方和的好处在于能保证损失始终是累加的正数，而不会存在正负残差抵消的问题。对于此公式而言，机器学习中有一个专门的名词，那就是平方损失函数。而为了得到拟合参数 𝑤0 和 𝑤1 最优的数值，我们的目标就是让平方损失函数最小。

最小二乘法

代数求解

step1: $f=\sum_{i=1}^{n}(y_{i}-(w_0+w_1x_i))^2$ 为平方损失函数；

step2:分别对该函数的 $w_0$ 和 $w_1$ 求偏导；

$\frac{\partial{f}}{\partial{w_0}}=-2(\sum_{i=1}^ny_i-nw_0-\sum_{i=1}^nw_1x_i)$ $\frac{\partial{f}}{\partial{w_1}}=-2\sum_{i=1}^n(x_iy_i-w_0x_i-w_1x_i^2)$

step3:分别令偏导为零；

首先，这是一个二次函数，极值就是最值。其次只要足够偏移，平方损失函数的值就会不断变大，所以是不可能取到极大值的，那么偏导为0的时候就只可能取到极小值了。

$w_{1}=\frac {n\sum_{}^{}{x_iy_i}-\sum_{}^{}{x_i}\sum_{}^{}{y_i}} {n\sum_{}^{}{x_i}^2-(\sum_{}^{}{x_i})^2} \tag{7b}$ $w_{0}=\frac {\sum_{}^{}{x_i}^2\sum_{}^{}{y_i}-\sum_{}^{}{x_i}\sum_{}^{}{x_iy_i}} {n\sum_{}^{}{x_i}^2-(\sum_{}^{}{x_i})^2} \tag{7b}$ 到目前为止，已经求出了平方损失函数最小时对应的参数值，这也就是最佳拟合直线。

矩阵推导

讲在前面，矩阵推到较为复杂，之所以还要赘述，是因为当数据量较大时，矩阵方式求解速度会更快。

step1:函数式转化为矩阵形式;

一元线性函数的表达式为 $y(x,w)=w_0+w_1x$ ，表达成矩阵形式为：
$\left[ \begin{array}{c}{1, x_{1}} \\ {1, x_{2}} \\ {\cdots} \\ {1, x_{9}} \\ {1, x_{10}}\end{array}\right] \left[ \begin{array}{c}{w_{0}} \\ {w_{1}}\end{array}\right] = \left[ \begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\cdots} \\ {y_{9}} \\ {y_{10}}\end{array}\right]$ 即： $y (x, w) = X W$ 平方损失函数为： $\sum\limits_{i = 1}^n {{{(y_{i}-(w_0 + w_1x_{i}))}}}^2 =(y-XW)^T(y-XW)$ 计算乘法分配律得到： $f = y^{T}y - y^{T}(XW) - (XW)^{T}y + (XW)^{T}(XW)$ 在该公式中 $y$ 与 $X W$ 皆为相同形式的 $(m, 1)$ 矩阵，由此两者相乘属于线性关系，所以等价转换如下： $f = y^{T}y - (XW)^{T}y - (XW)^{T}y + (XW)^{T}(XW)\\ = y^{T}y - 2 (XW)^{T}y + (XW)^{T}(XW)$

step2:矩阵对系数 $W$ 求偏导;

$f= y^{T}y - 2 (XW)^{T}y + (XW)^{T}(XW)$ 第一项为常数项可以直接省去，第二项为一次项根据求导公式：
$\frac{\partial{x^T}}{\partial{x}}=I$ 可得第二项求导结果为 $2X^Ty$ ，第三项为二次项，根据求导公式：
$\frac{\partial{u^Tv}}{\partial{x}}=\frac{\partial{u^T}}{\partial{x}}v+\frac{\partial{v^T}}{\partial{x}}u$
可以求得：
$\frac{\partial{((XW)^T(XW))}}{\partial{W}}=\frac{\partial{(W^TX^T)}}{\partial{W}}WX+\frac{\partial{(W^TX^T)}}{\partial{W}}WX=2X^TXW$