最小二乘法

转载学习, 原文地址: https://blog.csdn.net/L_jc11111/article/details/79613272

优秀讲解:半小时学习最小二乘法

最小二乘法的介绍:最小二乘法(又称最小平方法) 是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

对于无约束最优化问题,最小二乘法的一般形式为 [9] :
在这里插入图片描述

其中(xi, yi)是一对观测量,Li(x) 称为残差函数,ωi为待定参数 。 **当Li(x)x的线性函数时,称为线性最小二乘问题,否则称为非线性最小二乘问题** 。

如果拟合函数不是线性的,这时无法使用线性最小二乘法,需要通过一些技巧转化为线性才能使用。(非线性最小二乘或其他优化算法)

非线性最小二乘讲解请看这里

简而言之,最小二乘法同梯度下降类似,都是一种求解无约束最优化问题的常用方法,并且也可以用于曲线拟合,来解决回归问题。

最小二乘法实质就是最小化 “均方误差” ,而均方误差就是残差平方和的 1/m(m 为样本数),同时均方误差也是回归任务中最常用的性能度量。
MSE、RMSE、向量l2范数之间的公式、关系如下:

在这里插入图片描述

线性回归:最小二乘法

最小二乘法(正规方程)& 梯度下降法

(1) 最小二乘法和梯度下降法在线性回归问题中的目标函数是一样的 (或者说本质相同),都是通过最小化均方误差来构建拟合曲线。

(2) 二者的不同点可见下图 (正规方程就是最小二乘法):

需要注意的一点是最小二乘法只适用于线性模型 (这里一般指线性回归) ;而梯度下降适用性极强,一般而言,只要是凸函数,都可以通过梯度下降法得到全局最优值 (对于非凸函数,能够得到局部最优解)

最小二乘法的一些限制和解决方法:

关于 ATA 在什么情况下不可逆:

(1) 当样本的数量 <β的维度时,ATA 不可逆。例如:你有 1000 个特征,但你的样本数目小于 1000 的话,那么构造出的 ATA 就是不可逆的。

(2) 存在多重共线性 (在所有特征中若存在一个特征与另一个特征线性相关或一个特征与若干个特征线性相关时),ATA 不可逆。为什么呢?

具体来说假设, A 是 m*n 维的矩阵,若存在线性相关的特征,则 R(A)<n,R(AT)<n,R(ATA)<n, 所以 ATA 不可逆。

如果 ATA 不可逆,应该怎样解决?

(1) 筛选出线性无关的特征,不保留相同的特征,保证不存在线性相关的特征。

(2) 增加样本量。

(3) 采用正则化的方法。对于正则化的方法,常见的是 L1 正则项和 L2 正则项,L1 项有助于从很多特征中筛选出重要的特征,而使得不重要的特征为 0(所以 L1 正则项是个不错的特征选择方法);如果采用 L2 正则项的话,实际上解析解就变成了如下的形式:

λ即正则参数 (是一种超参数)后面的矩阵为 (n+1)*(n+1) 维,如果不考虑常数项的话,就是一个单位阵;此时括号中的矩阵一定是可逆的。

最小二乘法的改进

最小二乘法由于是最小化均方差,所以它考虑了每个样本的贡献,也就是每个样本具有相同的权重;由于它采用距离作为度量,使得他对噪声比较敏感 (最小二乘法假设噪声服从高斯分布),即使得他它对异常点比较敏感。因此,人们提出了加权最小二乘法,相当于给每个样本设置了一个权重,以此来反应样本的重要程度或者对解的影响程度。


参考资料:

百度百科

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值