Why is Least Squares?为啥是最小二乘法？

最新推荐文章于 2021-01-22 09:21:49 发布

Bernoulli_Cauchy

最新推荐文章于 2021-01-22 09:21:49 发布

阅读量319

点赞数 2

分类专栏：数学推导机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bernoulli_Cauchy/article/details/87124580

版权

机器学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

梯度下降算法出现了最小二乘法，这是一种非常普遍的拟合函数的近似算法。但是，3次，4次都不是，为什么正好是平方形式呢？
大概在高中时？老师谈到该方法，直接在散点图上划出一条直线，并作垂足，取最小距离，因为直线一侧定义为正，一侧为负，所以取平方值，综合所有点距离之和，最后所得即为最小二乘形式。

首先叙述Ng的方法，该方法是将离散的数据赋予概率的意义，然后估计参数。当然这并非“完全正确的”。实际上，将理论应用时从来不可能做到完全正确。

1.高斯分布误差函数导出

在这里插入图片描述

该证明：
(1)假设了误差(矢量)符合正态分布特性，导出了以给定thera为参数情况下，已知特征X，Y服从的分布。
(2)假设误差(矢量)服从独立同分布，导出参数似然性。
利用极大似然估计，直接对参数进行估计。

这个证明很简洁，但是谜之假设了正态分布，为啥酱紫假设？Ng说，因为这样是有道理的，因为实际情况反馈的是，这样的假设是符合实际情况的，也因为正态分布的性质实在太诱人了。综合上，所以这样假设。-.-…老师说的有道理。。。

2.残差最小化导出

数值分析课上，老师曾经利用最小2-范数来解释最小二乘法。如下：
介绍最小二乘法之前首先引入最佳平方逼近在最佳平方逼近前先引入两个引理

2.1最佳平方逼近

2.1.1 Cauchy-Schwarz 不等式

Lemma 1：
在这里插入图片描述

2.1.2 Gram矩阵

Lemma 2：
在这里插入图片描述

下面介绍最佳平方逼近

在这里插入图片描述

2.2 Least Squares

以下开始LS导出。首先构造残向量，各点预测值与实际值的差称残差。
在这里插入图片描述

哈尔条件：https://baike.baidu.com/item/哈尔条件/18935946?fr=aladdin

利用残向量的2-范数最小化，构造关于原始函数的最佳平方逼近，所得的形式恰好是我们常见的最小二乘法形式。相对于Ng的突然出现的正态假设似乎更加令我能够接受，但是推导比较复杂。

以上2种方法均是建立在连续基础上的，当然，离散问题也可使用，本来的，最小二乘法就是一种近似，一定范围内的误差是可以接受的。

Bernoulli_Cauchy

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Why is Least Squares?为啥是最小二乘法？

CS229第三课，谈过拟合问题前，Ng提到了使用最小二乘法的原因。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。