OLS回归分析理论基础

前言

        由于目前的实证研究中需要对变量间的因果关系进行定量分析,所以以伍德里奇和陈强两版本计量经济学教材为基础,有针对性的整理出OLS回归的相关知识,以解决实证分析中的实际问题。

        1)本文重点:本文重点研究OLS下面板数据的有效性,重点关注遗漏变量问题

        2)本文缺陷:本文为有倾向性的知识整理,并非两本教材的整体综述;由于笔者才疏学浅,重文字描述轻数学推导。

目录

1.数据结构分类

2.OLS估计量可靠性

3.函数形式讨论

4.模型设定和数据问题

5.面板数据的估计策略

6.规范的实证研究

一 数据结构分类

        OLS的数据集通常为结构化数据(至少经过处理后为结构化数据);按照我们关心的个体(可能是一个人、一个城市、一个指标等)和时间两个维度,可以将数据集大致分为四种类型:

        1.横截面数据(cross-sectional data)

         简称截面数据,某特定时点上个体变量(通常是一个时间点上多个个体)的取值所形成的数据集,如三个省份在2023年本科线分数:

省份 本科线分数
001 424
002 508
003 476

        

        2.时间序列数据(time series data)

        时间序列是指某个个体在不同时间点上(通常是一个个体在多个时间点上)的取值所形成的数据集,如近三年某省份本科线分数:     

年份 本科线分数
2021 431
2022 408
2023 475

        3.混合截面数据(pooled cross section)

        多于一个时点的多个个体变量(在至少两个时点对多个个体的有放回随机抽样;不同时点的个体不一定相同)的取值所形成的数据集,如近三年各省份本科线分数(抽样,n=2):

                                       

省份 2021 2022 2023
001 465 476 -
002 527 - -
003 - 510 -
004 - - 509
005 - - 455

        

       4.面板数据(panel data)

        由横截面数据中的每个个体变量的一个时间序列组成(多个个体在多个时间点上的取值);如果解释变量包含被解释变量的滞后值,称为“动态面板”,否则称为“静态面板”;面板数据通常不满足独立同分布假定,因为同一个个体在不同时期的扰动项一般存在自相关,但面板数据有三个优点,其一是可以解决普遍存储的遗漏变量问题,遗漏变量常由不可观测的个体差异造成,如果这种个体差异不随时间而改变,则面板数据是解决遗漏变量问题的有效方法。其二,面板数据可以提供个体的动态行为信息,由于其拥有横截面和时间两个维度,往往可以解决其中一个维度不能解决的问题。第三,由于同时拥有两个维度,其数据量往往更大,从而可以提高估计的精确度。例如,省份001~005在2021~2023年的本科分数线:

省份 2021 2022 2023
001 465 476 435
002 527 497 480
003 476 510 432
004 523 540 509
005 544 501 455

                        

二 OLS估计量可靠性

       OLS线性模型的“线性”,使其具有很强的可解释性(因为人类自己不能理解非线性的过程);而OLS的可解释性,依赖于我们对“总体”真实回归系数\beta的准确估计;总体系数我们无法观测,只能通过样本估计,得到回归系数的估计值\hat{\beta };所以,要使OLS的可解释性“靠得住”,就要保证\hat{\beta }\beta的差异足够小。为此,要量化差异的大小(换句话说,量化估计的可靠性),我们从“偏差”和“方差”两个维度进行分析,幸运的是,当OLS估计量满足某些特定的假定时,我们就可以确信OLS估计量参数估计的偏差或方差足够小,使估计量的可解释性具有可信度。打破某些OLS估计量的假设可能不会降低模型的预测能力,但会使系数产生偏差或方差。当我们的目标只是预测能力,而不关系变量间的因果关系时,适当打破一些假设或许可以接受。

        对于OLS的可靠性分析,以截面数据作为出发点,并在模型无偏性和一致性的问题中,面板数据作为解决方案之一被引出。OLS的有效性分析可以分为两个部分,首先是基于有限样本或小样本的精确性质,如OLS在高斯-马尔可夫假定以及经典线性模型假定下(接下来将给出假设内容)的最优无偏估计,就是一个有限样本性质。除了有限样本性质,大样本容量的渐进性质,可以使样本容量无限增加的情况下,拥有比有限样本性质更可喜的性质,其假设相对于小样本来说较弱,更加容易实现;且大样本下不需要研究统计量的精确分布,只需要研究其渐进分布,也同样降低了模型实现的难度。大样本的代价是要求样本容量大,一般要求至少n>=30(这好像不是什么难事)。

        1.小样本性质

         (1)高斯-马尔科夫定理:偏差与方差

                在分析估计参数的偏差和方差之前,首先给出“高斯-马尔科夫定理”及其定义的五个基本假设,这是一个非常重要且有力的理论工具,它向我们说明了为什么要使用OLS方法,在横截面数据分析中,当模型满足高斯-马尔科夫5个假定时,在一群线性无偏估计中,OLS具有最小的方差;高斯-马尔科夫假定的前四项能够保证模型系数的无偏性,得到模型参数的无偏估计,如果其中一个假定不成立,那么无偏性一般也不成立;最后一项假定能够保证模型估计量拥有最小方差,当最后一项假定不成立时,OLS估计仍然是无偏的,但不再具有最小方差,其定义及五个假定如下:

            【高斯-马尔科夫定理】:在下述5个基本假设下,OLS参数估计将是总体参数的最优线性无偏估计(BLUE),其中5个基本假设如下:

            【假定1-模型线性假定】:OLS模型是参数的线性函数,而因变量y和自变量x可以是原变量的任意函数(如自然对数和平方等)

            【假定2-随机抽样】:假定样本数据是从总体中随机抽取的,如果样本不是随机抽取的,例如存在选择性抽样偏差或非随机样本,那么回归的结果可能无法推广到整个总体。

            【假定3-条件均值为零】:即零条件均值,给定数据矩阵X,扰动项条件期望为0。当自变量与因变量的关系被错误的设定、当一个变量在总体中应该以对数出现时我们却使用了其水平值(或相反)、当我们漏掉一个与任一自变量相关的重要因素时,都可能使当前假定不成立

            【假定4-不存在严格多重共线性】:自变量之间不存在严格的线性关系;完全共线性是指,一个自变量刚好是其他自变量的一个线性组合,重要的是允许自变量之间存在相关关系,只是不能完全相关

            【假定5-同方差性】:假定5意味着以解释变量为条件的误差项u的方差,不管解释变量出现怎样的组合,都是一样的,如果此假定不成立,则称为异方差性。方差的大小在实践中也很重要,方差越大,则意味着估计量的置信区间越大和假

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值