最小二乘法

最新推荐文章于 2024-06-03 22:20:35 发布

weeekly

最新推荐文章于 2024-06-03 22:20:35 发布

阅读量2k

点赞数 4

文章标签：机器学习

版权

最小化二乘法是一种数学优化技术，是一种最简单的优化问题。

在我们研究两个变量（x,y）之间的相互关系时，通常可以得到一系列成对的数据（x1,y1.x2,y2... xm,ym）；将这些数据描绘在x -y直角坐标系中，若发现这些点在一条直线附近，可以令这条直线方程如（式1-1）。（式1-1）

其中：a0、a1 是任意实数

为建立这直线方程就要确定a0和a1，应用《最小二乘法原理》，将实测值Yi与利用计算值Yj（Yj=a0+a1Xi）（式1-1）的离差（Yi-Yj）的平方和最小为“优化判据”。

令：φ =（式1-2)

把（式1-1）代入（式1-2）中得：

φ =（式1-3)

当最小时，可用函数 φ 对a0、a1求偏导数，令这两个偏导数等于零。

∑2(a0 + a1*Xi - Yi）=0（式1-4)

∑2Xi（a0 +a1*Xi - Yi）=0（式1-5)

亦即：

na0 + （∑Xi ) a1 = ∑Yi （式1-6)

（∑Xi ) a0 + （∑Xi^2 ) a1 = ∑（Xi*Yi) （式1-7)

得到的两个关于a0、 a1为未知数的两个方程组，解这两个方程组得出：

a0 = （∑Yi) / n - a1（∑Xi) / n （式1-8)

a1 = [n∑(Xi Yi) - （∑Xi ∑Yi)] / (n∑Xi^2 -∑Xi∑Xi)（式1-9)

这时把a0、a1代入（式1-1）中，此时的(式1-1）就是我们回归的一元线性方程即：数学模型。

在回归过程中，回归的关联式不可能全部通过每个回归数据点（x1,y1. x2,y2...xm,ym），为了判断关联式的好坏，可借助相关系数“R”，统计量“F”，剩余标准偏差“S”进行判断；“R”越趋近于 1 越好；“F”的绝对值越大越好；“S”越趋近于 0 越好。

R = [∑XiYi - m （∑Xi / m）（∑Yi / m)]/ SQR{[∑Xi2 - m （∑Xi / m)2][∑Yi2 - m （∑Yi / m)2]} （式1-10) *

在（式1-10）中，m为样本容量，即实验次数；Xi、Yi分别为任意一组实验数据X、Y的数值。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。

样本回归模型：

其中ei为样本（Xi,Yi）的误差。

平方损失函数：

则通过Q最小确定这条直线，即确定β0和β1，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。求Q对两个待估参数的偏导数：

根据数学知识我们知道，函数的极值点为偏导为0的点。

解得：

这就是最小二乘法的解法，就是求得平方损失函数的极值点。

要拟合得到形如y=a+bx的函数，求解函数中系数的方程组为

其中，为权重，对应每个实验点的实验次数，4个实验点只有第一个点重复做了一次且得到相同结果（如果结果不同则另算一个实验点），其它都没有重复实验，因此总次数为5次。

解得

故拟合方程为

关注