目录
1. 最小二乘法
1.1 定义
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为
用函数表示为:
观察值与实际真实值的差量平方和达到最小以寻求估计值的方法,就叫做最小二乘法,用最小二乘法得到的估计,叫做最小二乘估计。当然,取平方和作为目标函数只是众多可取的方法之一。
1.2 解法
为了求出这个二次函数的最小值,对其进行求导,导数为0的时候取得最小值
由此推导
勒让德在论文中对最小二乘法的优良性做了几点说明:
-
最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位。
-
计算中只要求偏导后求解线性方程组,计算过程明确便捷。
-
最小二乘可以导出算术平均值作为估计值(如上述证明)。
由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。
2. 一元线性回归
回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
对于一元线性回归模型, 假设从总体中获取了n组观察值 , 对于平面中的这n个点,在简单线回归问题中,模型就是我们的直线方程:y = ax + b。
选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:
-
用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
-
用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
-
最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。
最常用的是普通最小二乘法(Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小,即采用平方损失函数。
通过ϵ 对a,b求偏导 对a,b求偏导:
3. 多元线性回归
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。方程模型为 y = Xb ∙θ
求解思路也与简单线性回归非常一致,目标同样是:已知训练数据样本x,y,找到 θ=θ0,θ1 ,…, θn , 尽可能小。
推导出可以得到多元线性回归的正规方程解:
下一节将介绍用梯度下降法来解该方程。