stata面板数据单位根检验llc_【干货分享】PVAR模型的stata操作流程(附操作文件)...

c4899e90a86ed4899ad26e4230b8164f.png

作者:alpamber

网址:https://bbs.pinggu.org/thread-6920947-1-1.html

本文仅用于分享交流,不用于任何商业用途,版权归原作者所有,如有侵权敬请后台联系,我们将在第一时间删除。

简单目录:

stata操作界面简介

PVAR的基本操作流程图

第一步输入数据(以导入Excel数据为例)

第二步 调整数据格式

第三步 描述性分析

第四步 面板单位根检验

第五步 协整检验

第六步 确定最优滞后阶数

第七步 格兰杰因果检验

第八步 GMM估计、脉冲响应及方差分解

stata软件操作界面简介:

220a41db9d3823be2197533758698c24.png

以stata15为例,基本的stata操作界面可以分为六个部分:

最上面两行是菜单,其中比较常用的是第二行中用绿框标出来的三个图标,第一个是新建/打开do文件、第二个是修改/编辑数据、第三个是查看(只读)数据;

    整个界面中间的一大块窗口是结果窗口,执行完命令后的结果就显示在这里;

    结果窗口左边的是Review窗口,记录刚才执行过的所有命令;结果窗口下边的是Command窗口即命令窗口,我们可以在这里输入命令,但一般仅用于输入一些不需要重复的简单的命令,并不常用;结果窗口右边靠上的窗口是Variables(变量)窗口,显示导入数据中包含的各变量信息;结果窗口右边靠下的窗口是Properties窗口,一般在编辑/修改数据时使用。

PVAR的基本操作流程图:

58553b70434c9be650a4acd8d532b36d.png

第一步 输入数据(以导入Excel数据为例) 在下载安装好stata软件之后,我一般在根目录下新建一个do文件夹,把要导入的Excel文件以及之后的do文件、dta文件和画好的图像都放在这个文件夹里,便于之后在操作过程中的使用和更改。 运用stata软件做PVAR模型,需要运用到许多个命令,为了简便,我们不需要在每一次打开软件操作的时候,都在Command窗口里输入一遍命令,而是将这些命令存入一个do文件,每次在操作前都打开这个do文件,再执行其中的命令。 首先,点击打开/新建do文件的图标,会自动出现一个Untitled.do文件,我们在其中输入或直接复制粘贴命令 import excel d:\stata15\do\ydyl.xlsx, sheet("Sheet1") firstrow 。在这个命令中,import是“导入”命令,excel是导入的文件类型,d:\stata15\do\ydyl.xlsx是导入文件的路径,sheet("Sheet1") 表示导入的是excel文件中的Sheet1,firstrow表示将表格中的第一行数据规定为变量名。需要注意的是,不同于Eviews软件, stata软件是区分大小写的 ,所以在输入路径时,文件名中的大小写一定要注意区分,但是D盘和d盘是一样的。 然后,如下图所示,选中刚才输入的命令,点击菜单中第二行最后一个执行图标,就可以导入以上路径中的数据了。接下来,我们回到stata界面,点击查看数据图标,就可以看到自己导入的数据了。

fd53b48db79785cf55c469d49043700b.png

最后,我们在do文件中,输入或复制粘贴命令save d:\stata15\do\ydyl.dta,replace ,就可以将我们刚刚导入的Excel中的数据,保存为stata软件中的dta文件也就是数据文件了。在这一条命令中,save是“保存”命令,d:\stata15\do\ydyl.dta表示要保存在哪个路径及保存的文件名,replace表示替代之前保存的ydyl.dta文件。如果之前没有保存过这个文件,结果窗口中会提示你没有这个文件,所以第一次保存的时候不用觉得奇怪。

第二步 调整数据格式

1. 打开数据

为了简便,我们不在每一次打开stata软件时,都导入和保存一遍数据,而是运用这样的两条命令:

cd d:\stata15\do    // 指定默认路径

use ydyl.dta,clear   // 打开指定路径下的数据文件

    第一条命令为指定默认路径,第二条命令为打开该默认路径下的数据文件,如果我们不指定路径就直接打开文件的话,系统是无法识别的。

2. 调整格式

    在PVAR模型中,我们导入的数据前两列要分别是个体变量(如地区、国家)和时间变量(如年度、季度、月度)。但是大多时候,我们直接导入进来的数据中,这两列数据的格式不正确的,在stata中无法识别,之后的统计分析中也会出现诸多问题,所以我们要先调整数据格式。正常情况下,个体变量的数据类型应该是long(如地区一=1、地区二=2…),时间变量的数据类型应该是float,如下图所示,我们可以在查看数据界面右下角的Properties窗口中看到。

6fe26ae736c2dec5019240c1d9241064.png

首先,我们来调整个体变量的格式。在do文件中输入或粘贴命令 encode country, gen(coun),这样我们就生成了一个新变量coun,它在内容上和原变量country保持一致,但是格式却是正确的。如果个体变量的格式不正确,数据颜色是红色的,但在正确情况下是蓝色的,如下图所示。

b56ed89df1c804a1b5e1b8656a35652c.png

然后,我们来调整时间变量的格式。从上图中我们可以看到,我选取的数据是月度数据,但是我导入的数据格式是日度的。那么首先我们执行命令 gen month=mofd(date)  将日度数据转换为月度数据,接下来点击修改/编辑数据图标,选中新生成的时间变量month,在右下角的Properties窗口中,有一个Format选项,在其中选择适当的数据格式即可,如下图所示:

54488c3fd2a33ee8d5adfa04cdaab327.png 01ec1cc899c7ab1ba111c0b88b72dd3e.png

    完成上述操作后,我们就会发现,个体变量和时间变量的格式都是正确的了。如果本身导入的时间变量在频度上没有问题,就只是单纯的数字,这时候只需要修改Format就可以了。

最后,我们删除掉原来的个体变量和时间变量,再将新的个体变量和时间变量进行排序就OK了。

drop country date  // 删除变量country、date

order coun, before(CHINAM2)   // 把变量coun移到变量CHINAM2的前面

order month, after(coun)    // 把变量month移到变量coun的后面

    展示一个成品(#^.^#):

ba07a18e8095e23746cd1b2a8087d7a2.png

注意:一定要经常保存do文件!下次用的时候直接打开上次的do文件就可以执行命令了。

第三步 描述性分析

在进行描述性分析之前,我们首先应当执行这样一条命令 xtset coun month,对面板数据中的个体变量和时间变量进行设定,这样做的目的在于告诉stata该数据为面板数据。

面板数据的描述性分析一般有两个基本命令:

xtdes   // 显示面板数据的结构

xtsum CHINAM2 CHINAR CHINAER IP IFR IR REER INDEX EX   // 显示面板数据的统计特征

f698f2eae034cc3d2d88a46e658f7c80.png

    上图显示的是执行 xtdes 命令后,面板数据结构的分析结果,大致内容已经标注出来,这里不再赘述。

b13fca37ddfd40b09ea8ed2592d16801.png

    上图列举了部分变量的统计特征,包括平均数、标准误、最小值、最大值以及观测值数量等信息。描述性分析结果一般不出现在论文中,其中比较有参考价值的是标准误,一般标准误越大,说明该变量数据的分布越离散,但是似乎和之后进行的平稳性检验联系不大。

第四步 面板单位根检验

在建立面板向量自回归(PVAR)模型之前,必须对各变量数据的平稳性进行单位根检验,如果变量序列不平稳,则可能使模型的估计结果出现偏差,并且脉冲响应和方差分解的结果失真。单位根检验包括检验同质单位根的LLC 和Breitung、检验异质单位根的IPS、ADF-Fisher和PP-Fisher五种方法。这里仅介绍一般我们经常使用的第一代面板单位根检验方法——LLC和IPS,但是如果两种检验结果出现冲突,再运用其他方法进行检验。

1. LLC检验方法(一般适用于T较大的情形)

    LLC检验方法包含三个常用命令:

xtunitroot llc IP, trend demean lags(bic 12)   // 对变量IP进行面板单位根LLC检验,这里假设变量IP既包含线性时间趋势项又包含个体固定效应项,是条件最苛刻的一种检验

xtunitroot llc IP, demean lags(bic 12)   // 这里假设变量IP仅含个体固定效应项

xtunitroot llc EX, noconstant demean lags(bic 12)   // none 的情形,即假设变量IP既不包含线性时间趋势项,也不包含个体固定效应项,是条件最宽松的一种检验

在上述三条命令中,demean 是为了减轻截面相关对检验的影响,lags(bic 12) 指应用BIC准则选取最优滞后阶数,bic 是指不同个体可以有不同的滞后阶数。此外,还有 aic、hpic 等准则,12表示选择一个较大的滞后阶数。

在进行检验时,我们一般从最苛刻的开始,但是由于检验能给的信息很少,为了更准确地判断应该使用哪种检验方法,我们可以通过看图来判断序列是否含有时间趋势项:

xtline IP, overlay   // 画出变量IP的图像,其中overlay表示将不同个体的IP变量绘制在一张图上

以下是三条命令的执行结果:

778164373dad640d10720fd70929616a.png

9cf65b8bf82cfc53db90e4413c290b5f.png

4cf86e80c2efc3c38a1651a917f9b675.png

    LLC检验的原假设是面板数据含有单位根(面板数据不平稳),备择假设是面板数据平稳。在分析结果中,我们主要观察的是 Adjusted t* 相对应的观测值和P值,P值越小越好。如果P值小于0.01,说明在1%的显著性水平下拒绝原假设;如果P值大于0.01,小于0.05,说明在5%的显著性水平下拒绝原假设;如果P值大于0.05,小于0.1,说明在10%的显著性水平下拒绝原假设;如果P值大于0.1,说明不能拒绝原假设,面板数据不平稳。以上三条命令的执行结果中,只要有一个结果显示拒绝原假设,就说明该面板数据是平稳的。

2. IPS检验方法

    IPS检验方法只包含两个常用命令:

    xtunitroot ips IP, trend demean lags(bic 8)   // 对变量IP进行面板单位根IPS检验,这里假设变量IP既包含线性时间趋势项又包含个体固定效应项,是条件最苛刻的一种检验

xtunitroot ips EX, demean lags(bic 8)   // 这里假设变量IP仅含个体固定效应项

xtline IP, overlay

    检验方法描述和执行结果判断和LLC方法一致,这里不再赘述。

在各变量序列中,存在这样一种情况,有些变量是面板序列,有些却是时间序列,例如研究中国货币政策对东盟十国的溢出效应时,东盟十国的经济变量是面板序列,中国货币政策变量却是时间序列。时间序列在进行单位根检验时,常用的是ADF和PP检验方法,一般我是用Eviews软件进行操作。以变量CHINAM2为例,以下是ADF检验的操作流程:

6bb171371c83b8b3fbb40166a19e1823.png 51dc9ac17ac41110c8663165c23fe1f4.png

0da050f300f7110df27e0c203b783627.pnge579ba077294261eec7e5682fb9d9270.png

    进行PP检验时,操作步骤和ADF基本一致,只需要注意更改检验类型即可。

最后依然展示一下成品表格(#^.^#):

b25c0a114684cee0e2fbaa5499dac94c.png

第五步 协整检验(用原始数据)

面板单位根检验的结果有两种:面板数据平稳和(部分)面板数据不平稳。如果各变量都是平稳的,那么可以直接进行之后的格兰杰因果检验、确定最优滞后阶数等程序,但是如果全部或部分变量不平稳,这个时候我们就需要进行面板协整分析,来考察变量间是否存在长期均衡关系。如果通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。

单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。协整检验的前提是同阶单整,因此,我们要保证所有的变量序列在同一差分阶数上都是平稳的。常用的协整检验方法包括三种:Kao、Pedroni和Johansen,如果变量总个数少于或等于六个,三种方法都可以使用,如果变量总个数多于六个,Pedroni检验方法将不再适用。

在保证了所有变量序列同阶单整的前提下,我们才可以运用原始数据进行协整检验,我是用Eviews9做的。

第一,新建一个工作文件,导入面板数据,如下图所示:

4e7cdebf22625d707f44f78f1f3e4361.png

    点击弹出窗口的左上角第一个单元格,将Excel中的所有数据(连带变量名)都一起粘贴进去。

f13d3a903419abe3f4804dfd86b3212d.pngc61b8380cea9ca4b4e29ee6e46138dda.png

    第二,在导入数据后,点击该界面左上角的View图标,选择Cointegration Test—Panel Cointegration Test,首先以Kao检验为例:

17f10f82fae879b414e3342cd237da7f.pnga73b8ce6127b5e9991ea335f8dd50f3e.png

Kao检验的原假设是各变量序列间不存在协整关系,我们主要观察结果中的t统计量和相对应的P值,P值的大小判断和单位根检验中的判断方法一致。

然后,以Johansen检验为例:

f2c3d64b2ada2775c86f0ce0b103dcaa.png6bc1c644bae52309cf956c7fa8ddde65.png

    我们主要观察结果红框中的部分,将结果转化为论文中常出现的形式:

df1daa1bd93117fc05f6f24ddd292ced.png

    在这里,我们一般认为P值小于0.05为佳。如上图所示,在进行检验的9个变量中,至少存在4个协整向量,因此可以判断变量间存在协整关系。正常情况下,随着协整向量个数的增多,P值应当逐渐变大,上图中的情况可能是数据本身有问题所导致的。在判断变量间存在协整关系后,我们才可以进行后续的格兰杰因果检验等程序。

第六步 确定最优滞后阶数(用平稳数据)

    在对面板数据进行格兰杰因果检验之前,首先应当确定最优滞后阶数,这里我运用到了连玉君老师的pvar2安装包。

    为了之后的操作可以顺利进行,首先介绍一下安装方法:如下图所示,点开连玉君的pvar2安装包后,里面有两个文件,分别是pvar2帮助文件和pvar2.ado文件,我们复制这两个文件,将它们存放到d:\stata15\ado\base\p文件夹中,再重启stata软件即可进行操作。

3b00f599129c4ad6033b4da729998d08.png66ca25d2a40f89e13886754d62bc6d2c.png

需要注意的是,在确定最优滞后阶数时,如果原始数据是非平稳的,应当使用平稳数据即差分后的数据;如果原始数据是平稳的,可以直接用来确定最优滞后阶数。在导入平稳数据后,执行下列命令:

pvar2 CHINAM2 CHINAR CHINAER IP IFR IR REER INDEX EX,lag(5) soc

    一般我们选择滞后阶数为五阶,如果执行结果出现matsize too small的情况,说明矩阵数不够,stataSE软件的最大矩阵数为11000。我们先执行命令 set matsize 11000,再执行一遍pvar2 CHINAM2 CHINAR CHINAER IP IFR IR REER INDEX EX,lag(5) soc即可。

    在操作结果中,有AIC、BIC和HQIC三个准则,每个准则下的最小值会用星号标出,星号最多的滞后阶数就是最优滞后阶数,如上图所示,最优滞后阶数为五阶。

c1bcb1c8a438282dca3830329b5d6f4f.png

    另外,如果执行结果出现command soc is unrecognized的情况,说明安装包没有安装好,或者再重启一下stata就好了。

第七步 格兰杰因果检验(用平稳数据)

在确定好最优滞后阶数后,我们进一步对面板数据做格兰杰因果检验。因果检验的前提是变量协整,如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”

下面简要介绍一下因果检验的含义,这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。

    然后,我们运用Eviews软件对上述面板数据进行格兰杰因果检验(我用的是Eviews9,更低版本的Eviews软件可能不能做该检验)。

在这里,我们继续运用协整检验步骤中导入的数据组,依次进行下列操作:

第一,打开之前导入的数据组Group1(保存时可以根据自己需要命名),点击该界面左上角的View图标,选择Granger Causality Test。

c61b8380cea9ca4b4e29ee6e46138dda.png7e14cd468f7efc06ed85be0f8ca70a14.png

在弹出的对话框中,默认的滞后阶数为2,将它修改为之前确定好的最优滞后阶数(在这里为5),再点击OK就可以了,以下是检验结果:

685da82647effd25486aeef16cfb3db1.png

一般而言,我们着重观察的是解释变量是否是被解释变量的格兰杰原因,相对应的P值的判断方法与之前一致,在将结果转变为表格形式时,应当标注出不同显著性水平。

展示一下成品(#^.^#):(表格中的结果是滞后二阶,不用纠结数字不同,主要看格式)

0949c743719aede4c7c413cbe596cbc7.png

第八步 GMM估计、脉冲响应及方差分解(用平稳数据)

不知道是什么原因,可能是stata15版本太新,无法识别连玉君pvar2安装包下的GMM检验等程序,所以这一步,我们首先更换一个Love的pvar2安装包。如下图所示,点开Love-pvar2安装包,和之前的安装步骤一致,将这些文件按照首字母分别存放到d:\stata15\ado\base\h、p、s文件夹中,在粘贴到p文件夹中时,切记要删掉之前的连玉君pvar2安装包内容,最后重启stata软件即可进行操作。这一块就是特别麻烦,我也没有想到更好的办法,只能说一定要细心一点啦!

cdd86436ef5cc92a0bd7e5c586e7aa55.pngd9531f8721bd15da7e3ca1b20b797d29.png

在重新导入平稳数据后,执行下列命令:

rename coun id    // 将个体变量的变量名更改为系统可以识别的形式id

rename month year    // 将时间变量的变量名更改为系统可以识别的形式year

xtset id year    // 告诉stata该数据为面板数据

helm id year IP IFR IR REER INDEX EX CHINAM2 CHINAR CHINAER

pvar2 IP IFR IR REER INDEX EX CHINAM2 CHINAR CHINAER, lag(5) gmm monte decomp(30)

在最后一条命令中,lag(5)为之前确定的最优滞后阶数,gmm为GMM估计,monte为脉冲响应分析,decomp(30)为方差分解分析且预测期为10、20和30,如果想要更短的预测期,可以更改括号中的数字,目前我知道还可以更改为5、10和20。也就是说,在执行完最后一条命令后,GMM估计、脉冲响应和方差分解的结果就全部出来了。由于内容太多,这里就不粘贴执行结果了,只展示一下整理的表格(#^.^#):

    首先是GMM估计的变量间的影响系数,如下图所示,纵列为自变量,横行为因变量,b_GMM是系数值,se_GMM是标准差,t_GMM是t检验统计量。一般情况下,如果t值的绝对值大于等于2.58,说明在1%的显著性水平下,两个变量有显著性关系;如果t值的绝对值大于等于1.96,小于2.58,说明在5%的显著性水平下,两个变量有显著性关系;如果t值的绝对值大于等于1.64,小于1.96,说明在10%的显著性水平下,两个变量有显著性关系;如果t值的绝对值小于1.64,说明两变量间不存在显著性关系。

c8f80dcedeec79b4872c14a28d9d3dad.png

    然后是方差分解,如下图所示,横行为解释变量,纵列为被解释变量。以左上角的1.269970为例,它表示在未来10期内,中国广义货币供应量CHINAM2对工业生产总值IP的解释能力为1.269970%。此外,随着预测期数的增加,前者对后者的解释能力逐步递增,最大值为1.400711%。

c06b82f47b9ac3765be97f5cd6b87dda.png

    以上就是全部操作流程啦,第一次写的不太完整,也不一定全都正确,仅供参考,以后还会不断修正和更新♪(^∇^*)~

安装stata15的百度云链接: 

https://pan.baidu.com/s/1WdCKeQztUp38H_YBX0wNVw  提取码:zh8v

操作文件:

链接:https://pan.baidu.com/s/1HGrhOGFLwKKxlxmD1SdHUA

提取码:z627

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 1024 设计师:白松林 返回首页