多元线性模型最小一乘回归

最新推荐文章于 2022-11-12 22:11:12 发布

今天好好学习了ma

最新推荐文章于 2022-11-12 22:11:12 发布

阅读量1.1k

点赞数 3

文章标签：概率论算法

本文链接：https://blog.csdn.net/qq_46489356/article/details/115741539

版权

多元线性模型最小一乘回归

一、算法目的
二、算法推导
三、实际案例与python编程计算
- 3.1引入数据集
- 3.2计算 $\widehat{\beta}$
四、参考文献

一、算法目的

       多元线性模型的矩阵形式：
$Y=X\beta+\varepsilon\tag{1}$
       其中， $Y=\left[ \begin{matrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{matrix} \right] ,X=\left[ \begin{matrix} 1&x_{11}&\cdots&x_{1p} \\ 1&x_{21}&\cdots&x_{2p} \\ \vdots&\vdots&\ddots&\vdots \\ 1 &x_{n1}&\cdots&x_{np} \end{matrix} \right]\\ \beta=\left[ \begin{matrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{matrix} \right],\varepsilon=\left[ \begin{matrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{matrix} \right]$
       对于以上多元线性模型我们要通过最小一乘法，也就是要求出使得残差的绝对值的和最小的参数 $\beta$ 的估计 $\widehat{\beta}$ 。

二、算法推导

2.1目标函数的表示形式

我们的目标函数为：
$\min Q(\beta)=\sum_{i=1}^{n}|y_{i}-x_{i}'\beta| \tag{2}$
其中， $x_{i}'=[1,x_{i1},\cdots,x_{ip}]$ 。

2.2构造一个线性规划

       我们知道，任何一个向量都可以表示为两个非负向量的差，为了符合线性规划中对未知变量保持非负的习惯与一般做法。我们令 $\beta=d_{1}-d_{2},d_{1}\ge0,d_{2}\ge0\tag{3}$
       下面我们给出线性规划约束条件的系数矩阵和系数矩阵右端项： $A=\left[\begin{matrix} I_{n}&X&-X \\ I_{n}&-X&X \end{matrix} \right],B=\left[\begin{matrix} Y\\ -Y \end{matrix} \right]\tag{4}$
       线性规划的变量为 $r,d_{1},d_{2})^{T}$ ，线性规划目标函数的变量系数矩阵为 $(l^{'}, 0, 0)$ 。其中， $r=\left[ \begin{matrix} r_{1} \\ r_{2} \\ \vdots \\ r_{n} \end{matrix} \right],l=\left[ \begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \end{matrix} \right]_{n\times1 \tag{5}}$
       综上，线性规划表示为：
$\begin{cases}\min(l',0,0)(r,d_{1},d_{2})^{T}=\sum_{i=1}^{n}r_{i} \\ A\left[\begin{matrix} r\\ d_{1}\\ d_{2} \end{matrix}\right]\ge B,\left[\begin{matrix} r\\ d_{1}\\ d_{2} \end{matrix}\right]\ge 0\end{cases}\tag{6}$

2.3一个证明：揭示(2)和(6)之间的关系

下面我们来证明，当线性规划 $(6)$ 求得最优解 $r,d_{1},d_{2})^{T}$ 时， $\beta=d_{1}-d_{2}$ 就是目标函数(2)的解。并且线性规划 $(6)$ 的最小值就是目标函数 $(2)$ 的最小值，也即 $\min Q=\sum_{i=1}^{n}r_{i}\tag{7}$
证明：
线性规划(6)的第一个约束条件可以写成 $r+Xd_{1}-Xd_{2}\ge Y,r-Xd_{1}+Xd_{2}\ge -Y$ 。也即 $r\ge Y-X\beta,r\ge -(Y-X\beta)$ 。也就是 $r_{i}\ge|y_{i}-x_{i}'\beta|,i=1,2,\cdots,n\tag{8}$

       假设当线性规划 $(6)$ 求得最优解 $(r,d_{1},d_{2})^{T},\beta=d_{1}-d_{2}$ 时，存在 $\widetilde{\beta}=\widetilde{d_{1}}-\widetilde{d_{2}}$ ，使得 $Q(\widetilde{\beta})<Q(\beta)$ ，其中 $\widetilde{d_{1}}\ge 0,\widetilde{d_{2}}\ge 0$ 。令 $\widetilde{r}=(\widetilde{r_{1}},\widetilde{r_{2}},\cdots,\widetilde{r_{n}})$ ，不妨令其中 $\widetilde{r_{i}}=|y_{i}-x_{i}'\widetilde{\beta}|,i=1,2,\cdots,n$ .那么
$A\left[\begin{matrix} \widetilde{r}\\ \widetilde{d_{1}}\\ \widetilde{d_{2}} \end{matrix}\right]\ge B,\left[\begin{matrix} \widetilde{r}\\ \widetilde{d_{1}}\\ \widetilde{d_{2}} \end{matrix}\right]\ge 0 \tag{9}$
       所以 $(\widetilde{r},\widetilde{d_{1}},\widetilde{d_{2}})^{T}$ 也满足线性规划 $(6)$ 的约束条件，并且 $(l',0,0)(\widetilde{r},\widetilde{d_{1}},\widetilde{d_{2}})^{T}=\sum_{i=1}^{n}\widetilde{r_{i}}=\sum_{i=1}^{n}|y_{i}-x_{i}'\widetilde{\beta}|=Q(\widetilde{\beta})<Q(\beta)$ ，由 $(8)$ 知， $Q(\beta)=\sum_{i=1}^{n}|y_{i}-x_{i}'\beta|\leq\sum_{i=1}^{n}r_{i}$ ，所以 $\sum_{i=1}^{n}\widetilde{r_{i}}<\sum_{i=1}^{n}r_{i}$ ，这与 $r,d_{1},d_{2})^{T}$ 是线性规划的最优解矛盾，所以第一部分得证。
        从上述的推导我们可以得知，在 $d_{1}$ 和 $d_{2}$ 已经确定的情况下， $|y_{i}-x_{i}'\beta|,i=1,2,\cdots,n$ 均为定值，由 $(8)$ 可知，为了使得线性规划 $(6)$ 的目标函数最小，必须取 $r_{i}=|y_{i}-x_{i}'\beta|$ 。所以 $(7)$ 成立。

2.4回归算法

$s t e p (1)$ ：输入回归数据 $X$ 和 $Y$
$s t e p (2)$ ：根据 $2.2$ 中的 $(4), (5), (6)$ 计算出线性规划的相关矩阵 $A, B, C$ 其中 $C=(l',0_{(p+1)\times1},0_{(p+1)\times1})$ 。
$s t e p (3)$ ：将 $A, B, C$ 带入单纯形法模块，求得最优解 $r,d_{1},d_{2})^{T}$
$s t e p (4)$ ：得到 $\widehat{\beta}=d_{1}-d_{2}$

注：关于单纯形法原理本文不再赘述。

三、实际案例与python编程计算

3.1引入数据集

我们以著名的 $H a l d$ 数据为例。
在这里插入图片描述

图3.1.1

3.2计算 $\widehat{\beta}$

下面给出计算最小一乘回归方程完整 $p y t h o n$ 源代码：

import pandas as pd
import numpy as np
from scipy import optimize
#多元线性模型的最小一乘回归(不等式约束条件)
#导入数据
dataset1=pd.read_excel('Hald.xlsx')
dataset2=pd.read_excel('Hald.xlsx')

#计算X,Y
Y=dataset1['Y'].values
dataset2['Y']=1
X=dataset2.values

#计算A,B,C
n=len(X)
B=np.hstack((Y,-Y))
In=np.eye(n)
A1=np.hstack((In,X,-X))
A2=np.hstack((In,-X,X))
A=np.vstack((A1,A2))
p=len(X[0])-1
l=np.ones(n,np.int)
o=np.zeros(p+1,np.int)
C=np.hstack((l,o,o))

#使用optimize包的linprog函数求解线性规划
r = optimize.linprog(C,A_ub=-A,b_ub=-B,bounds=(0,None))
#得到最优解x=(r,d1,d2)'
x=(r.x)
#计算β估计
beta=[]
for i in range(n,n+p+1):
    beta.append(x[i]-x[i+p+1])
    
#输出结果
print('多元线性模型的最小一乘法回归方程为：\ny=',end='')
print(beta[0],end='')
for i in range(1,p+1):
    if beta[i]>0:
        print('+{}x{}'.format(beta[i],i),end='')
    else:
        print('{}x{}'.format(beta[i], i),end='')

下面给出程序运行结果：
在这里插入图片描述

图3.2.1

四、参考文献

[1]陈希孺.最小一乘线性回归(下)[J].数理统计与管理,1989(06):48-56.
[2]吕书龙. 最小一乘估计快速算法的研究[D].福州大学,2003.

今天好好学习了ma

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
多元线性模型最小一乘回归

多元线性模型最小一乘回归一、算法目的二、算法推导2.1目标函数的表示形式2.2构造一个线性规划2.3证明2.2构造的线性规划最优时，2.1中目标函数达到最小三、级目录一、算法目的       多元线性模型的矩阵形式：Y=Xβ+ε(1)Y=X\beta+\varepsilon\tag{1}Y=Xβ+ε(1)       其中，Y=[y1y2⋮yn],X=[1x11
复制链接

扫一扫