前言
由于目前的实证研究中需要对变量间的因果关系进行定量分析,所以以伍德里奇和陈强两版本计量经济学教材为基础,有针对性的整理出OLS回归的相关知识,以解决实证分析中的实际问题。
1)本文重点:本文重点研究OLS下面板数据的有效性,重点关注遗漏变量问题
2)本文缺陷:本文为有倾向性的知识整理,并非两本教材的整体综述;由于笔者才疏学浅,重文字描述轻数学推导。
目录
1.数据结构分类
2.OLS估计量可靠性
3.函数形式讨论
4.模型设定和数据问题
5.面板数据的估计策略
6.规范的实证研究
一 数据结构分类
OLS的数据集通常为结构化数据(至少经过处理后为结构化数据);按照我们关心的个体(可能是一个人、一个城市、一个指标等)和时间两个维度,可以将数据集大致分为四种类型:
1.横截面数据(cross-sectional data)
简称截面数据,某特定时点上个体变量(通常是一个时间点上多个个体)的取值所形成的数据集,如三个省份在2023年本科线分数:
省份 | 本科线分数 |
001 | 424 |
002 | 508 |
003 | 476 |
2.时间序列数据(time series data)
时间序列是指某个个体在不同时间点上(通常是一个个体在多个时间点上)的取值所形成的数据集,如近三年某省份本科线分数:
年份 | 本科线分数 |
2021 | 431 |
2022 | 408 |
2023 | 475 |
3.混合截面数据(pooled cross section)
多于一个时点的多个个体变量(在至少两个时点对多个个体的有放回随机抽样;不同时点的个体不一定相同)的取值所形成的数据集,如近三年各省份本科线分数(抽样,n=2):
省份 | 2021 | 2022 | 2023 |
001 | 465 | 476 | - |
002 | 527 | - | - |
003 | - | 510 | - |
004 | - | - | 509 |
005 | - | - | 455 |
4.面板数据(panel data)
由横截面数据中的每个个体变量的一个时间序列组成(多个个体在多个时间点上的取值);如果解释变量包含被解释变量的滞后值,称为“动态面板”,否则称为“静态面板”;面板数据通常不满足独立同分布假定,因为同一个个体在不同时期的扰动项一般存在自相关,但面板数据有三个优点,其一是可以解决普遍存储的遗漏变量问题,遗漏变量常由不可观测的个体差异造成,如果这种个体差异不随时间而改变,则面板数据是解决遗漏变量问题的有效方法。其二,面板数据可以提供个体的动态行为信息,由于其拥有横截面和时间两个维度,往往可以解决其中一个维度不能解决的问题。第三,由于同时拥有两个维度,其数据量往往更大,从而可以提高估计的精确度。例如,省份001~005在2021~2023年的本科分数线:
省份 | 2021 | 2022 | 2023 |
001 | 465 | 476 | 435 |
002 | 527 | 497 | 480 |
003 | 476 | 510 | 432 |
004 | 523 | 540 | 509 |
005 | 544 | 501 | 455 |
二 OLS估计量可靠性
OLS线性模型的“线性”,使其具有很强的可解释性(因为人类自己不能理解非线性的过程);而OLS的可解释性,依赖于我们对“总体”真实回归系数的准确估计;总体系数我们无法观测,只能通过样本估计,得到回归系数的估计值
;所以,要使OLS的可解释性“靠得住”,就要保证
与
的差异足够小。为此,要量化差异的大小(换句话说,量化估计的可靠性),我们从“偏差”和“方差”两个维度进行分析,幸运的是,当OLS估计量满足某些特定的假定时,我们就可以确信OLS估计量参数估计的偏差或方差足够小,使估计量的可解释性具有可信度。打破某些OLS估计量的假设可能不会降低模型的预测能力,但会使系数产生偏差或方差。当我们的目标只是预测能力,而不关系变量间的因果关系时,适当打破一些假设或许可以接受。
对于OLS的可靠性分析,以截面数据作为出发点,并在模型无偏性和一致性的问题中,面板数据作为解决方案之一被引出。OLS的有效性分析可以分为两个部分,首先是基于有限样本或小样本的精确性质,如OLS在高斯-马尔可夫假定以及经典线性模型假定下(接下来将给出假设内容)的最优无偏估计,就是一个有限样本性质。除了有限样本性质,大样本容量的渐进性质,可以使样本容量无限增加的情况下,拥有比有限样本性质更可喜的性质,其假设相对于小样本来说较弱,更加容易实现;且大样本下不需要研究统计量的精确分布,只需要研究其渐进分布,也同样降低了模型实现的难度。大样本的代价是要求样本容量大,一般要求至少n>=30(这好像不是什么难事)。
1.小样本性质
(1)高斯-马尔科夫定理:偏差与方差
在分析估计参数的偏差和方差之前,首先给出“高斯-马尔科夫定理”及其定义的五个基本假设,这是一个非常重要且有力的理论工具,它向我们说明了为什么要使用OLS方法,在横截面数据分析中,当模型满足高斯-马尔科夫5个假定时,在一群线性无偏估计中,OLS具有最小的方差;高斯-马尔科夫假定的前四项能够保证模型系数的无偏性,得到模型参数的无偏估计,如果其中一个假定不成立,那么无偏性一般也不成立;最后一项假定能够保证模型估计量拥有最小方差,当最后一项假定不成立时,OLS估计仍然是无偏的,但不再具有最小方差,其定义及五个假定如下:
【高斯-马尔科夫定理】:在下述5个基本假设下,OLS参数估计将是总体参数的最优线性无偏估计(BLUE),其中5个基本假设如下:
【假定1-模型线性假定】:OLS模型是参数的线性函数,而因变量y和自变量x可以是原变量的任意函数(如自然对数和平方等)
【假定2-随机抽样】:假定样本数据是从总体中随机抽取的,如果样本不是随机抽取的,例如存在选择性抽样偏差或非随机样本,那么回归的结果可能无法推广到整个总体。
【假定3-条件均值为零】:即零条件均值,给定数据矩阵X,扰动项条件期望为0。当自变量与因变量的关系被错误的设定、当一个变量在总体中应该以对数出现时我们却使用了其水平值(或相反)、当我们漏掉一个与任一自变量相关的重要因素时,都可能使当前假定不成立
【假定4-不存在严格多重共线性】:自变量之间不存在严格的线性关系;完全共线性是指,一个自变量刚好是其他自变量的一个线性组合,重要的是允许自变量之间存在相关关系,只是不能完全相关
【假定5-同方差性】:假定5意味着以解释变量为条件的误差项u的方差,不管解释变量出现怎样的组合,都是一样的,如果此假定不成立,则称为异方差性。方差的大小在实践中也很重要,方差越大,则意味着估计量的置信区间越大和假