目录
一、引言
在统计学和计量经济学中,普通最小二乘法(Ordinary Least Squares,OLS)是一种广泛应用的线性回归方法。当样本量较小时,正确使用和理解 OLS 模型对于得出可靠的结论至关重要。本文将详细介绍小样本 OLS 模型的理论原理,并通过 Stata 软件进行实际操作演示。
二、理论原理
OLS 模型的基本思想是通过最小化残差平方和来估计线性回归方程中的参数。对于一个简单的线性回归模型 y = β₀ + β₁x + ε
,我们的目标是找到参数 β₀
和 β₁
的估计值,使得实际观测值 y
与预测值 ŷ
之间的差异最小。
在小样本情况下,我们需要更加关注估计量的性质,如无偏性、有效性和一致性等。
三、小样本 OLS 和大样本 OLS 的区别
-
估计量的性质
- 在小样本中,OLS 估计量的无偏性和有效性等性质成立是基于一些严格的假设条件。例如,误差项需要满足正态分布等。
- 大样本中,即使某些假设条件不满足,根据中心极限定理,OLS 估计量仍然具有渐近无偏性和一致性。
-
统计推断
- 小样本下,进行统计推断(如 t 检验、F 检验)时,对误差项的分布等假设要求较高。
- 大样本时,由于中心极限定理的作用,这些检验可以基于渐近正态分布进行,对误差项分布的假设要求相对宽松。
-
置信区间
- 小样本的置信区间通常基于精确的分布(如 t 分布)来构建。
- 大样本的置信区间则基于渐近正态分布来构造。
-
稳定性
- 小样本中,估计值可能对异常值或偏离假设的情况较为敏感,稳定性相对较差。
- 大样本中,由于数据量较大,估计值相对更稳定,对个别异常值的影响不太敏感。
四、数据准备
为了进行演示,我们假设我们有一个包含 30 个观测值的数据集,其中包含变量 x
(自变量)和 y
(因变量)。以下是生成示例数据的代码:
clear
set obs 30
gen x = runiform()
gen y = 2 + 3*x + rnormal()
上述代码首先清空了当前内存中的数据,然后生成了 30 个观测值。x
是一个在 0 到 1 之间均匀分布的随机变量,y
是根据线性关系 y = 2 + 3*x + ε
生成的,其中 ε
是一个正态分布的随机误差项。
五、Stata 操作步骤
- 回归分析
使用regress
命令进行 OLS 回归:
regress y x
这段代码将 y
对 x
进行回归,并输出回归结果。
- 代码解释
regress
命令后的第一个变量是因变量,第二个及以后的变量是自变量。
- 运行结果
运行上述代码后,Stata 将输出以下主要结果:
Source | SS df MS Number of obs = 30
:显示了模型的来源、平方和、自由度、均方以及观测值数量。-------------+------------------------------ F( 1, 28) = 78.21
:给出了 F 检验的结果。Model | 41.7780545 1 41.7780545 Prob > F = 0.0000
:模型的平方和、自由度和概率值。Residual | 15.2452155 28 .544471982 R-squared = 0.7328
:残差的平方和、自由度和决定系数。-------------+------------------------------ Adj R-squared = 0.7227
:调整后的决定系数。Total | 57.02327 29 1.96632
:总平方和。------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | 2.884419.3277718 8.797 0.000 2.21487 3.553968
_cons | -0.0520527.274707 -0.19 0.851 -0.61177 0.507665
从结果中可以看出,x
的系数估计值为 2.884419
,标准误差为 0.3277718
,t 值为 8.797
,p 值小于 0.000,表明 x
对 y
有显著的影响。
- 残差分析
为了检查模型的拟合情况,我们首先需要生成残差:
predict resid, residuals
然后绘制残差与自变量 x
的散点图:
scatter resid x
通过观察散点图的分布,可以初步判断模型是否存在异方差等问题。
- 正态性检验
使用 sktest
命令检验残差的正态性:
sktest resid
如果 p 值大于 0.05,通常可以认为残差服从正态分布。