简单的双变量线性回归模型（一）

tiprincess

于 2024-06-04 20:28:52 发布

阅读量641

点赞数 25

分类专栏：计量经济从简单到复杂（代码+案例）文章标签：线性回归算法回归

本文链接：https://blog.csdn.net/SAMAsamaa/article/details/137072307

版权

计量经济从简单到复杂（代码+案例）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Simple Linear Model（SLM）

那么，从现在开始我们就要开始正式的回归模型学习啦！先来看看最简单的双变量线性回归模型吧！
关键词：线性模型；双变量模型

最小二乘法（OLS）

在我们常规的模型估计中，最小二乘法是最最最常见的估计方法，下面从原理开始看看OLS是怎么估计系数的吧！
假设现在有一组数据，包括4组观测值，具体分布如下：

X	Y
X1	P1
X2	P2
X3	P3
X4	P4

现在我们想要知道X和Y之间的线性关系，首先我们先假设这两个变量之间的关系为：
$Y_i=\beta_0+\beta_1X_i+u_i （1）$
$i$ 作为下标表示的是具体某一个观测值，在这个案例中我们有4个观测值，所以 $i = 1, 2, 3, 4$ 。 $u_i$ 被称为误差项。我们有4个观测值，则样本总量 $N = 4$ 。
接下来我们需要理解两个概念：样本和总体。
样本：是从总体中抽取一部分观测值，作为代表性的数据来估计总体，也就是说我们试图通过实用部分数据来估计总体的全貌。因此必然存在误差，而且随着样本数量的增加，误差会越来越小。
总体：就是所有观测值，比如我们要研究女性学历和女性工资之间的关系，那么地球上所有女性的信息在一起就叫做总体。很显然，我们无法获得总体数据，只能收集到尽可能多的女性信息，这就是样本。随着我们收集到的信息越多越全面，那么我们估计的结果就会越准确，这是因为我们遗漏的误差越少。
那么，公式（1）就是我们想要估计的总体模型，其中 $\beta_0$ , $\beta_1$ 就叫做参数（parameter）。参数是固定的数值的一个数，表示的是X和Y之间真正的数量关系。可是，由于我们无法获得总体数据，只能用部分样本数据来估计模型，因此我们无法得到真正的参数值，只能获得该参数的估计值。
$\hat{Y_i}=b_0+b_1X_i （2）$
其中 $b_0$ , $b_1$ 即是我们对参数 $\beta_0$ , $\beta_1$ 的估计值。随着样本数量的增加和模型的优化，我们估计的 $b_0$ , $b_1$ 会越来越接近参数 $\beta_0$ , $\beta_1$ 。公式（2）则是我们得到的样本模型。整个计量模型估计实际上就是在寻找 $b_0$ , $b_1$ ，而整个计量模型的检验和改进都是为了找到尽可能接近参数 $\beta_0$ , $\beta_1$ 的估计值 $b_0$ , $b_1$ 。即便我们使用相同的变量和相同的模型，当我们选择不同的样本数据时，我们的估计值也不相同。
接下来我们用图形来描述下：
在这里插入图片描述
图1 观测值和拟合线
如图1所示，这四组观测值分别在图上表现为4个点，那条直线则是公式（2）所描述的直线。 $\hat{Y_i}$ 叫做估计值，也就是我们使用给定的X数值并且利用我们找到的参数估计值 $b_0$ , $b_1$ 得到的Y的值。
在这里插入图片描述
图2 观测值和拟合线和残差项
可以看到，在X取值X1时，Y的预测值为R1，真实观测值为P1，两者之间的误差为e1。依次类推，可以得到四个观测值分别对应的误差值。这些误差值实际上衡量了公式（2）中估计值和真实值之间的差异也就是误差大小。
介绍完这些前提背景以后，我们来看看到底怎么使用OLS找到参数估计值 $b_0$ , $b_1$ 。最小二乘法实际上就是最小化每个观测值的误差平方和，公式表示如下：
$\sum_i^N{e_i^2}$
有人会说为什么不是最小化每个观测值的误差和呢？实际上真的有这种估计方法，但是我们不做研究。大家可以想一下，误差是不是有正有负，如果直接用误差和，是不是会出现抵消？而误差的平方则都是正数，可以一定程度上反映出观测值和估计值之间的差距大小。言归正传，怎么最小化每个观测值的误差平方和呢？
$e_i=真实观测值-估计值=Y_i-\hat{Y_i}=Y_i-(b_0+b_1X_i )$
因此，可得：
$S^2=\sum_i^N{e_i^2}=\sum_i^N{(Y_i-\hat{Y_i})^2}$
$=\sum_i^N{(Y_i-(b_0+b_1X_i ))^2}$
$Y_1-(b_0+b_1X_1 ))^2+...+(Y_N-(b_0+b_1X_N ))^2$
$=\sum_i^N{Y_i^2}+Nb_0^2+b_1^2\sum_i^N{X_i^2}-2b_0\sum_i^N{Y_i}-2b_1\sum_i^N{X_iY_i}+2b_0b_1\sum_i^N{X_i}$
基本的数学知识告诉我们：
$\sum_i^N{e_i^2}$
$minS^2$
求最小值的一阶条件为：
$\frac{\partial{S^2}}{\partial{b_0}}=0$ 和 $\frac{\partial{S^2}}{\partial{b_1}}=0$
由此可得：
$\frac{\partial{S^2}}{\partial{b_0}}=2Nb_0-2\sum_i^N{Y_i}+2b_1\sum_i^N{X_i}=0$
$\frac{\partial{S^2}}{\partial{b_1}}=2b_1\sum_i^N{X_i^2}-2\sum_i^N{X_iY_i}+2b_0\sum_i^N{X_i}=0$
根据上述两式子可得：
$2Nb_0-2N\bar{Y}+2b_1N\bar{X}=0$
$b_0=\bar{Y}-b_1\bar{X}$
然后将 $b_0=\bar{Y}-b_1\bar{X}$ 代入第二个式子可得：
$2b_1\sum_i^N{X_i^2}-2\sum_i^N{X_iY_i}+2(\bar{Y}-b_1\bar{X})N\bar{X}=0$
$2b_1[\sum_i^N{X_i^2}-N\bar{X}^2]=2\sum_i^N{X_iY_i}-2N\bar{Y}\bar{X}$
$b_1[(1/N)\sum_i^N{X_i^2}-\bar{X}^2]=(1/N)\sum_i^N{X_iY_i}-\bar{Y}\bar{X}$
很明显：
$b_1Var(X)=Cov(X,Y)$
$b_1=Cov(X,Y)/Var(X)=\frac{(1/N)\sum_i^N{X_iY_i}-\bar{Y}\bar{X}}{(1/N)\sum_i^N{X_i^2}-\bar{X}^2}=\frac{\sum_i^N{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sum_i^N{(X_i-\bar{X})^2}}$
以上则是简单OLS模型的系数求解推导全过程，若变为多变量，则过程类似只是求解难度更大。举一反三，知道最根本的求解原理是最重要的。
在下一个小节中，我们会详细解释OLS回归中的各种数值及其解释，如RSS, ESS, TSS， $R^2$ 等，并会给出STATA实例分析及操作步骤。