机器学习二：回归问题之普通最小二乘 Ordinary Least Squares(OLS) 与闭式解

本文链接：https://blog.csdn.net/qq_46380784/article/details/133788350

回归问题将分为四部分讲解：

1、普通最小二乘 OLS

2、二项式回归 Poly

3、岭回归，Lasso回归

4、最大似然估计、最大后验概率、贝叶斯公式与上述各类回归模型间的联系

本节介绍：普通最小二乘OLS

一、背景知识

1、前情回顾

机器学习的四大要素：

输入数据：输入数据D = {X,y}，X为输入的n维特征，y为目标值（真值）

某个未知的最佳映射模型：y = f(X)

假设模型：y' = h(X)，这是我们实际训练得到的模型

损失函数：计算y与y'之间的差距

2、特征向量扩张 expend feature vector

首先，什么是特征向量？

答：就是输入数据D = {X,y} 中X的具体某一行。

为什么要扩张？怎么扩张？

答：为方便理解，假设特征向量为1*1的向量（即只有一个输入值），有n组数据，模型为线性回归模型（若对线性回归的概念有疑问，此处不多赘述了。可跳转我另一个专栏中的文章链接https://blog.csdn.net/qq_46380784/article/details/125821540?spm=1001.2014.3001.5502则具体某一次输入的特征向量可以表示为 eq?x%20%3D%20%5Bx_1%5D ，预测模型可以表示为 $eq?y%27%20%3D%20h%28x_1%29%20%3D%20w_0+w_1x_1$ 。

将模型转变为矩阵/向量乘法的形式，则

eq?y%27%20%3D%20h%28x%29%20%3D%20%5Cbegin%7Bpmatrix%7D1%20%26%20x_1%20%5Cend%7Bpmatrix%7D%5Cbegin%7Bpmatrix%7Dw_0%20%5C%5C%20w_1%20%5Cend%7Bpmatrix%7D

显然，特征向量的维度从原来的1*1变为了1*2。由于在实操中，统一使用矩阵运算能够很好的描述各类函数，所以将各项数据都转换为矩阵的形式。因此，将原本的特征向量左侧扩张一列，添加数字1。

换个例子，若特征向量为1*k的向量，有n组数据，模型为线性回归模型。则某一次的输入向量在扩张后应为

eq?x_i%20%3D%20%5B1%2Cx_%7Bi1%7D%2Cx_%7Bi2%7D%2Cx_%7Bi3%7D%2C...%2Cx_%7Bik%7D%5D i∈[1,n]

预测模型为

$eq?y_i%27%20%3D%20h%28x_i%29%20%3D%20w_0+w_1x_%7Bi1%7D+w_2x_%7Bi2%7D+...+w_kx_%7Bik%7D$

推广到整个模型，输入的特征矩阵

eq?X%3D%5Bx_1%2Cx_2%2C..%2Cx_n%5D%5ET%3D%5Cbegin%7Bpmatrix%7D%201%20%26x_%7B11%7D%20%26%20...%20%26x_%7B1k%7D%20%5C%5C%201%20%26x_%7B21%7D%20%26%20...%20%26x_%7B2k%7D%20%5C%5C%20...%26%20...%20%26...%20%26...%20%5C%5C%201%26x_%7Bn1%7D%20%26...%20%26%20x_%7Bnk%7D%20%5Cend%7Bpmatrix%7D

eq?y%27%20%3D%20%5By_1%27%2C%20y_2%27%2C...%2Cy_n%27%5D%5ET

eq?w%3D%5Bw_0%2Cw_1%2Cw_2%2C...%2Cw_k%5D%5ET

即，预测模型可表示为：

eq?y%27%20%3D%20Xw

OK, 接下来进入正题。

二、普通最小二乘 OLS

上一篇文章中提到，可以使用预测方差和SSE（sum of square error）来描述模型的损失函数，即：

我们的目标就是要找到w*使得L(w)的值最小。即最小二乘

那么有两种方法可以得到，（1）梯度下降算法，（2）求导/剃度，求驻点

我们现在关注第二种方法：求梯度。

对L(w)做基本展开：

$eq?L%28w%29%20%3D%20%7C%7CXw-y%7C%7C%5E2%3D%28Xw-y%29%5ET%28Xw-y%29%3D%28Xw%29%5ETXw-%20%28Xw%29%5ETy-y%5ETXw+y%5ETy%20%3D%20w%5ETX%5ETXw-2w%5ETX%5ETy+y%5ETy$