Why is Least Squares?为啥是最小二乘法?

梯度下降算法出现了最小二乘法,这是一种非常普遍的拟合函数的近似算法。但是,3次,4次都不是,为什么正好是平方形式呢?
大概在高中时?老师谈到该方法,直接在散点图上划出一条直线,并作垂足,取最小距离,因为直线一侧定义为正,一侧为负,所以取平方值,综合所有点距离之和,最后所得即为最小二乘形式。

首先叙述Ng的方法,该方法是将离散的数据赋予概率的意义,然后估计参数。当然这并非“完全正确的”。实际上,将理论应用时从来不可能做到完全正确。

1.高斯分布误差函数导出

在这里插入图片描述
在这里插入图片描述
该证明:
(1)假设了误差(矢量)符合正态分布特性,导出了以给定thera为参数情况下,已知特征X,Y服从的分布。
(2)假设误差(矢量)服从独立同分布,导出参数似然性。
利用极大似然估计,直接对参数进行估计。

这个证明很简洁,但是谜之假设了正态分布,为啥酱紫假设?Ng说,因为这样是有道理的,因为实际情况反馈的是,这样的假设是符合实际情况的,也因为正态分布的性质实在太诱人了。综合上,所以这样假设。-.-…老师说的有道理。。。

2.残差最小化导出

数值分析课上,老师曾经利用最小2-范数来解释最小二乘法。如下:
介绍最小二乘法之前首先引入最佳平方逼近 在最佳平方逼近前 先引入两个引理

2.1最佳平方逼近

2.1.1 Cauchy-Schwarz 不等式

Lemma 1:
在这里插入图片描述

2.1.2 Gram矩阵

Lemma 2:
在这里插入图片描述
在这里插入图片描述
下面介绍最佳平方逼近
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.2 Least Squares

以下开始LS导出。首先构造残向量,各点预测值与实际值的差称残差。
在这里插入图片描述
在这里插入图片描述
哈尔条件:https://baike.baidu.com/item/哈尔条件/18935946?fr=aladdin

利用残向量的2-范数最小化,构造关于原始函数的最佳平方逼近,所得的形式恰好是我们常见的最小二乘法形式。相对于Ng的突然出现的正态假设似乎更加令我能够接受,但是推导比较复杂。

以上2种方法均是建立在连续基础上的,当然,离散问题也可使用,本来的,最小二乘法就是一种近似,一定范围内的误差是可以接受的。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值