两种方法对经典最小二乘法的改进

最新推荐文章于 2024-01-18 11:18:58 发布

置顶 lotylotylotyloty

最新推荐文章于 2024-01-18 11:18:58 发布

阅读量7.4k

点赞数 17

分类专栏： Machine-Learning 文章标签：算法数据分析机器学习

本文链接：https://blog.csdn.net/lvoutongyi/article/details/107878402

版权

Machine-Learning 专栏收录该内容

6 篇文章

订阅专栏

一、经典最小二乘法

①经典最小二乘法原理介绍

最小二乘法的原理实质比较简单，本质的目的是要确定如下建立的一元线性回归模型的两个回归参数 $a_1$ 和 $b_1$ ：
$y=a_1x+b_1$
若已知m组样本观测数据 $x_i,y_i)(i=1,2,3,4···m)$ ，经典的做法是根据离差平方和来达到一种最小的准则来进行确定的，即确定满足下面条件的 $a_1'$ 和 $b_1'$ ,它们使得下面函数取到最小值：
$Q(a_1',b_1')=\sum_{i=1}^m(y_i-a_1'x_i-b_1')^2$
然后的问题就变得简单了，通过我们上述 $Q$ 函数的定义我们不难知道 $Q(a_1',b_1')$ 是一个非负函数，关于 $a_1',b_1'$ 的导数是存在的，通过分别对 $a_1',b_1'$ 来进行求导并令其为零会得到：
$\frac{\partial Q(a_1',b_1')}{\partial a_1'}=\sum_{i=1}^m-2x_i(y_i-a_1'x_i-b_1')=0\longrightarrow \sum_{i=1}^mx_iy_i=\sum_{i=1}^mb_1'x_i+a_1'\sum_{i=1}^mx_i^2·······························①$
$\frac{\partial Q(a_1',b_1')}{\partial b_1'}=\sum_{i=1}^m-2(y_i-a_1'x_i-b_1')=0\longrightarrow \sum_{i=1}^my_i=mb_1'+a_1'\sum_{i=1}^mx_i·······································②$
联立 $① ， ②$ 分别对 $m$ 取平均我们很容易就求出来了 $a_1'和b_1'$ ：
$a_1'={\overline {xy}-\bar x\bar y\over \overline{x^2}-(\overline{x})^2}$
$b_1'=\overline {y}-a_1'\overline {x}$

二、基于离差概率平方总和最小对最小二乘法的改进

①改进原理介绍

我们都知道最小二乘法并不能保证所有的样本测试数据点都在整个回归直线上面，而是比较“均匀”的分布在直线两边，我们可以考虑一种概率来重新对数据拟合误差的大小进行一种新规定：
若已知m组样本观测数据 $(x_i,y_i),y_i\not=0(i=1,2,3,4···m)$ ，我们新规定线性回归模型如下：
$y=a_2x+b_2$
下面定义概率 $P_i$ 如下：
$P_i={|y_i-a_2x_i-b_2|\over y_i}$
发现绝对值的存在显然不便于我们处理，我们不妨改进 $P_i$ 的定义如下：
$P_i(a_2,b_2)=({y_i-a_2x_i-b_2\over y_i})^2$
而我们所要求的即为满足如下的函数 $R$ 的最小值时的 $a_2和b_2$ ：
$R(a_2,b_2)=\sum_{i=1}^mP_i$
根据 $R$ 函数的定义我们知道 $R(a_2,b_2)$ 是一个非负函数，关于 $a_2,b_2$ 有偏导数令其偏导为零有：
$\frac{\partial R(a_2,b_2)}{\partial a_2}=\sum_{i=1}^m-2{x_i\over y_i}(1-{x_i\over y_i}a_2-{b_2\over y_i})=0\longrightarrow \sum_{i=1}^m{x_i\over y_i}=a_2\sum_{i=1}^m{x_i^2\over y_i^2}+b_2\sum_{i=1}^m{x_i\over y_i^2}·····························③$
$\frac{\partial R(a_2,b_2)}{\partial b_2}=\sum_{i=1}^m-2{1\over y_i}(1-{x_i\over y_i}a_2-{b_2\over y_i})=0\longrightarrow \sum_{i=1}^m{1\over y_i}=a_2\sum_{i=1}^m{x_i\over y_i^2}+b_2\sum_{i=1}^m{1\over y_i^2}·····························④$
联立 $③ ， ④$ 分别对 $m$ 取平均我们很容易就求出来了 $a_2和b_2$ ：
$b_2={\overline{({x\over y})}\times\overline{({x\over y^2})}-\overline{({1\over y})}\times\overline{({x^2\over y^2})}\over\overline{({x\over y^2})}\times\overline{({x\over y^2})}-\overline{({1\over y^2})}\times\overline{({x^2\over y^2})}}$
$a_2={\overline{({1\over y})}-b_2\overline{({1\over y^2})}\over\overline{({x\over y^2})}}$
之后通过利用编程来进行计算这两个参数即可，这种方法对我们的初始数据 $x_i,y_i)$ 中的 $y_i$ 有着特殊的要求。

三、基于垂线段总和最小对最小二乘法的改进

①改进原理介绍

我们仍假定所求回归直线为：
$y=a_3x+b_3$
经典最小二乘法仅仅是考虑的两点之间的直线距离，我们不妨这样考虑：可否将我们所有的样本点 $x_i,y_i)(i=1,2,3,4···m)$ 向回归直线做垂线段，并将此平方总和作为度量指标来替代经典二乘法的距离呢？
据此想法，我们定义 $S$ 函数如下：
$S(a_3,b_3)=\sum_{i=1}^m {(a_3x_i-y_i+b_3)^2\over a_3^2+1}$
而我们所要求的即为满足如下的函数 $S$ 的最小值时的 $a_3和b_3$ ：
根据 $S$ 函数的定义我们知道 $S(a_3,b_3)$ 是一个非负函数，关于 $a_3,b_3$ 有偏导数令其偏导为零有：
$\frac{\partial S(a_3,b_3)}{\partial a_3}=\sum_{i=1}^m {2x_i(a_3x_i-y_i+b_3)(a_3^2+1)-2a_3(a_3x_i-y_i+b_3)^2\over a_3^2+1}=0$
$\frac{\partial S(a_3,b_3)}{\partial b_3}=\sum_{i=1}^m {2(a_3x_i-y_i+b_3)\over a_3^2+1}=0$
即：
$\sum_{i=1}^ma_3(x_i^2-y_i^2)+\sum_{i=1}^m(a_3^2-1)x_iy_i+\sum_{i=1}^mb_3(1-a_3^2)x_i+\sum_{i=1}^m2a_3b_3y_i=a_3b_3^2····································⑤$
$\sum_{i=1}^m(a_3x_i-y_i+b_3)=0·····························⑥$
而由 $⑥$ 我们可知：
$a_3\overline x-\overline y+b_3=0$
$b_3=\overline y-a_3\overline x·····························⑦$
联立 $⑤ ， ⑦$ 分别对 $m$ 取平均我们很容易就求出来了 $a_3和b_3$ ：
$a_3^2(\overline{xy}-\bar x\bar y)+a_3(\overline{x^2-y^2}-\bar x\bar x+\bar y\bar y)+(\bar x\bar y-\overline{xy})=0$
$a_3={-(\overline{x^2-y^2}-\bar x\bar x+\bar y\bar y)\pm\sqrt{(\overline{x^2-y^2}-\bar x\bar x+\bar y\bar y)^2+4(\overline{xy}-\bar x\bar y)^2}\over2(\overline{xy}-\bar x\bar y)}((\overline{xy}-\bar x\bar y)\not=0)$
$a_3={-(\bar x\bar y-\overline{xy})\over(\overline{x^2-y^2}-\bar x\bar x+\bar y\bar y)}((\overline{xy}-\bar x\bar y)=0)$
再由 $⑦$ 可得 $b_3$ 。
根据上面我们会发现有两个 $a_3$ 供我们选择，当然我们选择哪一个是要根据题意而定的。并非都取，要结合实际数据来看。

下面笔者结合之前写过的最小二乘法改进算法利用MATLAB进行了编程实现检验，进一步证实了实际可行性。

我们假定现在有如下10个数据点如下所示：测试数据来源于应用回归分析（科学出版社，唐年胜，李会琼编著——p15）
（800，594），（1100，638），（1400，1122），（1700，1155）
（2000，1408），（2300，1595），（2600，1969），（2900，2068）
（3200，2585），（3500，2530）

①普通最小二乘法数据点和拟合曲线：

代码样例：

x=[800,1100,1400,1700,2000,2300,2600,2900,3200,3500];
y=[594,638,1122,1155,1408,1595,1969,2068,2585,2530];
avx=sum(x)/10;avy=sum(y)/10;
avxy=sum(x.*y)/10;avx2=sum(x.^2)/10;
a1=(avxy-avx*avy)/(avx2-avx^2);
b1=avy-a1*avx;
plot(x,y,'*')
hold on
y1=a1*x+b1;
plot(x,y1)

得到的拟合数据点结果和拟合回归曲线图如下所示：
在这里插入图片描述

回归直线①:

在这里插入图片描述

②概率改进最小二乘法数据点和拟合曲线：

代码样例：

x=[800,1100,1400,1700,2000,2300,2600,2900,3200,3500];
y=[594,638,1122,1155,1408,1595,1969,2068,2585,2530];
avx_y=sum((x./y))/10;
avx_y2=sum(x./(y.^2))/10;
avx2_y2=sum((x.^2)./(y.^2))/10;
av1_y=sum(1./y)/10;
av1_y2=sum(1./(y.^2))/10;
b2=(avx_y*avx_y2)-(av1_y*avx2_y2);
b2=((avx_y*avx_y2)-(av1_y*avx2_y2))/((avx_y2*avx_y2)-(av1_y2*avx2_y2));
a2=(av1_y-b2*(av1_y2))/avx_y2;
plot(x,y,'*')
hold on;
y2=a2*x+b2;
plot(x,y2);

得到的拟合数据点结果和拟合回归曲线图如下所示：
在这里插入图片描述

回归直线②:

在这里插入图片描述

③垂线段改进最小二乘法数据点和拟合曲线：

代码样例：

x=[800,1100,1400,1700,2000,2300,2600,2900,3200,3500];
y=[594,638,1122,1155,1408,1595,1969,2068,2585,2530];
avxy=sum(x.*y)/10;
avx=sum(x)/10;
avy=sum(y)/10;
avx2__y2=sum(x.^2-y.^2)/10;
q1=-(avx2__y2-avx*avx+avy*avy);
q2=sqrt(q1^2+4*((avxy-avx*avy)^2));
q3=2*(avxy-avx*avy);
a3=(q1+q2)/q3;
b3=avy-a3*avx;
plot(x,y,'*');
hold on;
y3=a3*x+b3;
plot(x,y3)