最小二乘法

前言

最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法,打好机器学习的基础,后面的系列文章会继续讲解最小二乘的正则化。
至于非线性最小二乘和广义线性模型,如果以后有时间会进行整理。

核心思想
最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小:

在这里插入图片描述
观测值yiyi就是我们的多组样本,理论值yy就是我们的假设拟合函数。目标函数也就是在机器学习中常说的损失函数EE,我们的目标是得到使目标函数最小化时候的参数。

所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。

直观理解
均方误差有非常好的几何意义,它对应了常用的欧几里德距离。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧氏距离之和最小。

假设有一条直线y=ax+b,要在这条直线上找到一点,距离(x0,y0)这个点的距离最短。如果用绝对值的方法寻找,也就是取min(|y−y0|+|x−x0|),由于绝对值最小为0,所以最小的情况就是x=x0或者y=y0处,如下图1所示。
在这里插入图片描述
如果用平方和的方法寻找,就是取min(y−y0)2+(x−x0)2,可以看出该式是两点间距离公式,也就是距离的概念。那么最短的距离,就是点到直线的垂线,如下图2所示。
在这里插入图片描述
事实上,最小二乘法的解θ=(XTX)−1XTY正符合投影矩阵的公式:将Y向量投影到X构成的平面上。

Note:最小二乘法用途很广,不仅限于线性回归。
通用解法

  1. 列出损失函数E,样本值用来xi表示
  2. 对参数求导,解得最小值 此时的参数即为所求 对参数求导,解得最小值
  3. 此时的参数即为所求此时的参数即为所求

对真值的估计
可以说整部数理统计学的历史,就是对算术平均不断深入研究的历史。而最小二乘法可以解释为什么多次测量取算术平均的结果就是真值,比如估计身高可以测三次后取平均。

当我们对于某个未知量θ观测m次,记每次的结果为xi
在这里插入图片描述
求得
在这里插入图片描述
所以
在这里插入图片描述
直线拟合/多元线性回归
求导计算最小值是通用解法,但矩阵法比代数法要简洁,且矩阵运算可以取代循环,所以现在很多书和机器学习库都是用的矩阵法来做最小二乘法。

在这里插入图片描述
故损失函数定义为:(系数1/2是为了简化计算添加的,求迹前和求迹后值不变)
在这里插入图片描述
应用矩阵迹的计算公式:
在这里插入图片描述
Note:矩阵求导坑多,使用迹来计算比较方便。

线性回归的t检验
记n为回归方程的特征个数,m为样本数
在这里插入图片描述
总平方和(SST)可分解为回归平方和(SSR)与残差平方和(SSE)两部
在这里插入图片描述
若用样本计算的F>F0.05(k,n−k−1),则拒绝H0,则回归方程在显著性水平α=0.05下是显著的

最小二乘法的适用场景
当样本量m很少,小于特征数n的时候,这时拟合方程是欠定的,需要使用LASSO。当m=n时,用方程组求解。当m>n时,拟合方程是超定的,我们可以使用最小二乘法。

局限性

  • 首先,最小二乘法需要计算(XTX)−1逆矩阵,有可能逆矩阵不存在,这样就没有办法直接用最小二乘法。
  • 第二,当样本特征n非常的大的时候,计算逆矩阵是一个非常耗时的工作,甚至不可行。建议不超过10000个特征。
  • 第三,如果拟合函数不是线性的,这时无法使用最小二乘法,需要通过一些技巧转化为线性才能使用。

最小二乘法和M估计
在统计数据时,难免会遇到异常值,即人为误差。而这种误差对结果的影响远比系统误差大,比如将1记录成10。所以我们使用稳健性来评价一个方法对异常值的敏感程度。

最小二乘法是一种稳健性较差的方法,原因在于其目标函数是误差的平方,是一个增长很快的函数。
所以不难想到,对于E=∑f(xi)E=∑f⁡(xi),我们可以取f(x)=|x|
来减小函数的增长速度。
统计学家休伯将这一想法用于对一个未知量θθ参数估计的情况,即:
xi=θ+ei,取定函数ρ,找出使函数在这里插入图片描述达到最小的θ^^,将其作为θ的估计值.

M估计是一类估计,主要包括ρ(u)=u2的最小二乘法和ρ(u)=|x|的最小一乘法。M估计也可以和最小二乘法一样,推广到多元线性回归,称为稳健回归,但是因为难于计算等局限,应用并不广泛。

Note:最小一乘法对未知参数θ的估计值θ^=xi的中位数

最小二乘法和正则化
当(XTX)−1不存在,即XTX不满秩时,θ无唯一解。
故考虑在原先的A的最小二乘估计中加一个小扰动λIλI,使原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定并得以求解。有:
在这里插入图片描述
而此时对应的损失函数为
在这里插入图片描述
上式称为岭回归(ridge regression),通过引入L2范数正则化。
当然也可以将L2范数替换为L1范数。对应有
在这里插入图片描述

上式称为LASSO。
对于L2范数,本质上其实是对误差的高斯先验。
而L1范数则对应于误差的Laplace先验。

最小二乘法的理论证明
拉普拉斯指出随机误差应满足正态分布,而高斯创造性地发明并使用极大似然法证明了最小二乘法。
故测量误差服从高斯分布的情况下, 最小二乘法等价于极大似然估计。

在这里插入图片描述
Note:数学的发展史很多时候是不符合逻辑顺序的。事实上,高斯当时是循环论证最小二乘法的,推理有缺陷。而后拉普拉斯才弥补了这一点。

转载自小楼吹彻玉笙寒 https://blog.csdn.net/u011893609/article/details/80016915

  • 27
    点赞
  • 200
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
最小二乘法是一种用于拟合数据的数学方法,旨在找到一个最优解来最小化数据点与拟合曲线之间的误差平方和。在最小二乘法中,我们将数据表示为一个线性模型,并使用数据点和模型之间的差异来计算误差。然后,通过调整模型参数,使得误差最小化。 递推最小二乘法是在最小二乘法的基础上提出的一种改进方法。它的目标是通过仅使用新的数据点来更新模型参数,而无需重新计算整个数据集的最小二乘解。这样可以节省计算时间和存储空间。 递推最小二乘法的基本思想是利用递推关系式来更新模型参数。具体来说,我们可以通过递推更新公式来更新协方差矩阵和参数向量,从而避免对协方差矩阵的求逆操作。这可以大大降低计算复杂度。 然而,递推最小二乘法也存在一些问题。首先,对于协方差矩阵的递推更新可能导致数值溢出的问题,因为随着数据量的增加,矩阵中的元素会不断增大。其次,由于递推的特性,递推最小二乘法对数据的顺序具有一定的敏感性。如果数据的顺序发生变化,可能会影响到模型参数的更新。 总之,最小二乘法是一种常用的拟合方法,而递推最小二乘法是对最小二乘法的改进,通过递推更新公式来减少计算复杂度。但在使用递推最小二乘法时需要注意数值溢出和数据顺序的影响。<span class="em">1</span><span class="em">2</span> #### 引用[.reference_title] - *1* *2* [递推最小二乘法(Recursive least square, RLS)详细推导](https://blog.csdn.net/qq_39645262/article/details/125691638)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值