最小二乘法

最新推荐文章于 2024-03-08 06:03:45 发布

huataiwang

最新推荐文章于 2024-03-08 06:03:45 发布

阅读量7.2w

点赞数 27

分类专栏：数理基础统计学文章标签：最小二乘法

数理基础同时被 2 个专栏收录

8 篇文章

订阅专栏

统计学

3 篇文章

订阅专栏

前言

最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法，打好机器学习的基础，后面的系列文章会继续讲解最小二乘的正则化。
至于非线性最小二乘和广义线性模型，如果以后有时间会进行整理。

核心思想
最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数，使得理论值与观测值之差（即误差，或者说残差）的平方和达到最小：

在这里插入图片描述
观测值yiyi就是我们的多组样本，理论值y^y就是我们的假设拟合函数。目标函数也就是在机器学习中常说的损失函数EE，我们的目标是得到使目标函数最小化时候的参数。

所谓最小二乘，其实也可以叫做最小平方和，其目的就是通过最小化误差的平方和，使得拟合对象无限接近目标对象。换句话说，最小二乘法可以用于对函数的拟合。

直观理解
均方误差有非常好的几何意义，它对应了常用的欧几里德距离。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小。

假设有一条直线y=ax+b，要在这条直线上找到一点，距离(x0,y0)这个点的距离最短。如果用绝对值的方法寻找，也就是取min(|y−y0|+|x−x0|)，由于绝对值最小为0，所以最小的情况就是x=x0或者y=y0处，如下图1所示。
在这里插入图片描述
如果用平方和的方法寻找，就是取min(y−y0)²+(x−x0)²，可以看出该式是两点间距离公式，也就是距离的概念。那么最短的距离，就是点到直线的垂线，如下图2所示。

事实上，最小二乘法的解θ=(X^TX)⁻¹X^TY正符合投影矩阵的公式：将Y向量投影到X构成的平面上。

Note：最小二乘法用途很广，不仅限于线性回归。
通用解法

列出损失函数E，样本值用来xi表示
对参数求导，解得最小值此时的参数即为所求对参数求导，解得最小值
此时的参数即为所求此时的参数即为所求

对真值的估计
可以说整部数理统计学的历史，就是对算术平均不断深入研究的历史。而最小二乘法可以解释为什么多次测量取算术平均的结果就是真值，比如估计身高可以测三次后取平均。

当我们对于某个未知量θ观测m次，记每次的结果为xi
在这里插入图片描述
求得

所以

直线拟合/多元线性回归
求导计算最小值是通用解法，但矩阵法比代数法要简洁，且矩阵运算可以取代循环，所以现在很多书和机器学习库都是用的矩阵法来做最小二乘法。

在这里插入图片描述
故损失函数定义为：（系数1/2是为了简化计算添加的，求迹前和求迹后值不变）

应用矩阵迹的计算公式：

Note：矩阵求导坑多，使用迹来计算比较方便。

线性回归的t检验
记n为回归方程的特征个数，m为样本数
在这里插入图片描述
总平方和（SST）可分解为回归平方和（SSR）与残差平方和（SSE）两部

若用样本计算的F>F0.05(k,n−k−1)，则拒绝H0，则回归方程在显著性水平α＝0.05下是显著的

最小二乘法的适用场景
当样本量m很少，小于特征数n的时候，这时拟合方程是欠定的，需要使用LASSO。当m=n时，用方程组求解。当m>n时，拟合方程是超定的，我们可以使用最小二乘法。

局限性

首先，最小二乘法需要计算(X^TX)⁻¹逆矩阵，有可能逆矩阵不存在，这样就没有办法直接用最小二乘法。
第二，当样本特征n非常的大的时候，计算逆矩阵是一个非常耗时的工作，甚至不可行。建议不超过10000个特征。
第三，如果拟合函数不是线性的，这时无法使用最小二乘法，需要通过一些技巧转化为线性才能使用。

最小二乘法和M估计
在统计数据时，难免会遇到异常值，即人为误差。而这种误差对结果的影响远比系统误差大，比如将1记录成10。所以我们使用稳健性来评价一个方法对异常值的敏感程度。

最小二乘法是一种稳健性较差的方法，原因在于其目标函数是误差的平方，是一个增长很快的函数。
所以不难想到，对于E=∑^f(xi)E=∑^f⁡(xi)，我们可以取f(x)=|x|
来减小函数的增长速度。
统计学家休伯将这一想法用于对一个未知量θθ参数估计的情况，即：
xi=θ+ei，取定函数ρ，找出使函数在这里插入图片描述达到最小的θ^^，将其作为θ的估计值.

M估计是一类估计，主要包括ρ(u)=u²的最小二乘法和ρ(u)=|x|的最小一乘法。M估计也可以和最小二乘法一样，推广到多元线性回归，称为稳健回归，但是因为难于计算等局限，应用并不广泛。

Note：最小一乘法对未知参数θ的估计值θ^=xi的中位数

最小二乘法和正则化
当(X^TX)⁻¹不存在，即X^TX不满秩时，θ无唯一解。
故考虑在原先的A的最小二乘估计中加一个小扰动λIλI，使原先无法求广义逆的情况变成可以求出其广义逆，使得问题稳定并得以求解。有：
在这里插入图片描述
而此时对应的损失函数为

上式称为岭回归（ridge regression），通过引入L2范数正则化。
当然也可以将L2范数替换为L1范数。对应有