面板数据分析步骤及流程-R语言

R语言 同时被 2 个专栏收录
14 篇文章 2 订阅
3 篇文章 0 订阅

面板数据

面板数据(Panel Data),也成平行数据,具有时间序列和截面两个维度,整个表格排列起来像是一个面板。
面板数据举例:
这里写图片描述

模型说明及分析步骤

1、首先确定解释变量和因变量;
2、R语言操作数据格式,部分截图如下,这里以index3为因变量,index1与index2为解释变量:
这里写图片描述

##加载相关包
install.packages("mice")##缺失值处理
install.packages("plm")
install.packages("MSBVAR")
library(plm)
library(MSBVAR)
library(tseries)
library(xts)
library(mice)
data<-read.csv("F://分类别//rankdata.csv",header=T,as.is=T)##读取数据

2、单位根检验:数据平稳性
为避免伪回归,确保结果的有效性,需对数据进行平稳性判断。何为平稳,一般认为时间序列提出时间趋势和不变均值(截距)后,剩余序列为白噪声序列即零均值、同方差。常用的单位根检验的办法有LLC检验和不同单位根的Fisher-ADF检验,若两种检验均拒绝存在单位根的原假设则认为序列为平稳的,反之不平稳(对于水平序列,若非平稳,则对序列进行一阶差分,再进行后续检验,若仍存在单位根,则继续进行高阶差分,直至平稳,I(0)即为零阶单整,I(N)为N阶单整)。

##单位根检验
tlist1<-xts(data$index1,as.Date(data$updatetime))
adf.test(tlist1)
tlist2<-xts(data$index2,as.Date(data$updatetime))
adf.test(tlist2)

3、协整检验/模型修正
单位根检验之后,变量间是同阶单整,可进行协整检验,协整检验是用来考察变量间的长期均衡关系的方法。若通过协整检验,则说明变量间存在长期稳定的均衡关系,方程回归残差是平稳的,可进行回归。
格兰杰因果检验:前提是变量间同阶协整,通过条件概率用以判断变量间因果关系。

##格兰杰因果检验
granger.test(tsdata,p=2)

4、模型选择
面板数据模型的基本形式
这里写图片描述
也可写成:
这里写图片描述
其中:
这里写图片描述
这里写图片描述
这里写图片描述

对于平衡的面板数据,即在每一个截面单元上具有相同个数的观测值,模型样本观测数据的总数等于NT。
当N=1且T很大时,就是所熟悉的时间序列数据;当T=1而N很大时,就只有截面数据。

  • 模型选择一般有三种形式
    (1)无个体影响的不变系数模型(混合估计模型):ai=aj=a,bi=bj=b
    这里写图片描述
    即模型在横截面上无个体影响、无结构变化,可将模型简单地视为是横截面数据堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以采用OLS法进行估计(共有k+1个参数需要估计),该模型也被称为联合回归模型(pooled regression model)。
    (2)变截距模型(固定效用模型):ai≠aj,bi=bj=b
    这里写图片描述
    即模型在横截面上存在个体影响,不存在结构性的变化,即解释变量的结构参数在不同横截面上是相同的,不同的只是截距项,个体影响可以用截距项ai (i=1,2,…,N)的差别来说明,故通常把它称为变截距模型。
    (3)变系数模型(随机效应模型):ai≠aj,bi≠bj
    这里写图片描述
    即模型在横截面上存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项ai (i=1,2,…,N)来说明的同时还允许系数向量bi (i=1,2,…,N)依个体成员的不同而变化,用以说明个体成员之间的结构变化。我们称该模型为变系数模型。
  • 选择合适的面板模型
    需要检验被解释变量yit的参数ai和bi是否对所有个体样本点和时间都是常数,即检验样本数据究竟属于上述3种情况的哪一种面板数据模型形式,从而避免模型设定的偏差,改进参数估计的有效性。
    这里写图片描述
    如果接受假设H2,则可以认为样本数据符合不变截距、不变系数模型。如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合变截距、不变系数模型;反之,则认为样本数据符合变系数模型。
  • F检验
    具体计算过程略,见参考ppt。
    这里写图片描述
    这里写图片描述
    其中下标1,s1指代随机效应模型的残差平方和,s2指代固定效用模型残差平方和,s3指代混合估计模型的残差平方和;
    若F2统计量的值小于给定显著水平下的相应临界值,即F2小于Fa,则接受H2,认为样本数据符合混合效应模型;反之,则继续检验假设H1;
    若F1统计量的值小于给定显著水平下的相应临界值,即F1小于Fa,则接受H1,认为样本数据符合固定效应模型;反之,则认为样本数据符合随机效应模型;
  • 随机效应模型
    (1)1.LM检验。Breush和Pagan于1980年提出R 检验方法。
    其检验原假设和备择假设:
    这里写图片描述
    如果不否定原假设,就意味着没有随机效应,应当采用固定效应模型。
    (2). 豪斯曼(Hausman)检验。William H Greene于1997年提出了一种检验方法,称为豪斯曼(Hausman)检验。
    这里写图片描述
    若统计量大于给定显著水平下临界值,p值小于给定显著水平,则存在个体固定效应,应建立个体固定效应模型。
form<- index3~index1+ index2
rankData<-plm.data(data,index=c("IPname","updatetime"))#转化为面板数据
pool <- plm(form,data=rankData,model="pooling")#混合模型
pooltest(form,data=rankData,effect="individual",model="within")#检验个体间是否有差异
pooltest(form,data=rankData,effect="time",model="within")#检验不同时间是否有差异
wi<-plm(form,data=rankData,effect="twoways",model="within")#存在两种效应的固定效应模型
pooltest(pool,wi)#F检验判断混合模型与固定效应模型比较
phtest(form,data=rankData)##Hausman检验判断应该采用何种模型,随机效应模型检验
pbgtest(form,data=rankData,model="within")#LM检验,随机效应模型检验
#检验是否存在序列相关
pwartest(form,data=rankData)#Wooldridge检验(自相关)小于0.05存在序列相关
summary(wi)##查看拟合模型信息
fixef(wi,effect="time")#不同时间对因变量的影响程度的系数估计值
inter<-fixef(wi,effect="individual")#不同个体对因变量的影响程度的截距估计值

##根据模型参数,进行预测;

百度文库中下载的参考ppt:
http://pan.baidu.com/s/1qXHVGde

注:有些地方,尤其R代码部分有些乱,需根据实际数据情况进行选择,函数的参数设置并未完全吃透,还需要继续学习,如有不对的地方,再改正,目前的理解是这样了,在本次数据场景中,实际数据应用中预测效果不是很好,误差稍大,这次未采用,以后遇到可以再尝试。

本书较全面地介绍了R应用于空间数据分析的原理和方法。在介绍R中空间数据类、方法、空间对象、空间点类、空间线类、空间面类空间网格的基础上,首先介绍了空间数据的可视化。空间数据的导人导出、空间数据的处理定制多点数据、六角形网格、时空网格大型网格数据类的方法;然后介绍了空间点模式分析、插值与地统计分析、面数据和空间自相关分析和面数据建模;最后介绍了空间数据分析在疾病数据制图分析中的应用。 本书适合作为“空间信息处理”和“空间信息可视化”课程的教材,通过大量的实例展示了 空间分析方法的应用领域其价值,较全面地展示了R在空间统计与分析中的成果与前景。本书配套网站包括了书中的所有实例、所涉的包和数据集,对读者学习和研究将有很大帮助。 目录 第一部分 r的空间数据处理 第1章 空间数据介绍 1.1 空间数据分析 1.2 为什么要用r 1.2.1 概述 1.2.2 为什么使用r进行空间数据分析 1.3 r和gis 1.3.1 什么是gis 1.3.2 面向服务的架构 1.3.3 进一步了解gis 1.4 空间数据的类型 1.5 存储和显示 1.6 空间数据分析应用 1.7 r空间资源 1.7.1 在线资源 1.7.2 本书的结构 第2章 r的空间数据类 2.1 概述 2.2 r中的类和方法 2.3 spatial对象 2.4 spatialpoints类 2.4.1 方法 2.4.2 空间点数据数据框 2.5 spatiallines类 2.6 spatialpolygons类 2.6.1 spatialpolygons dataframe对象 2.6.2 孔和环方向 2.7 spatialgrid和spatialpixel对象 第3章 空间数据可视化 3.1 传统绘图系统 3.1.1 绘制点、线、多边形和网格 3.1.2 坐标轴和布局元素 3.1.3 坐标轴标签和参考网格中的度 3.1.4 绘图尺寸、绘图区域、地图比例以多图绘制 3.1.5 绘图属性和地图图例 3.2 使用spplot的trellis/lattice绘制 3.2.1 一个直观的trellis示例 3.2.2 绘制点、线、面和网格 3.2.3 对图添加参考物和布局元素 3.2.4 安排面板布局 3.3 绘图交互 3.3.1 基本图形的交互 3.3.2 spplot和lattice的绘图交互 3.4 彩色调色板和类区间 3.4.1 彩色调色板 3.4.2 类区间 第4章 空间数据导入/导出 4.1 坐标参考系 4.1.1 使用epsg清单 4.1.2 proj.4 crs规范 4.1.3 投影和坐标转换 4.1.4 度、分和秒 4.2 矢量文件格式 4.2.1 使用rgdal包中的ogr驱动程序 4.2.2 其他的导入/导出函数 4.3 栅格文件格式 4.3.1 使用rgdal包中的gdal驱动 4.3.2 编写一个google earth影像覆盖 4.4 grass 百老街霍乱数据 4.5 其他的导入/导出接口 4.5.1 分析和可视化应用 4.5.2 terralib和art 4.5.3 其他gis和web地图系统 4.6 安装rgdal包 第5章 空间数据处理高级方法 5.1 支撑 5.2 叠置 5.3 空间取样 5.4 拓扑检查 5.4.1 多边形合并 5.4.2 孔状态检查 5.5 组合空间数据 5.5.1 组合位置数据 5.5.2 组合属性数据 5.6 辅助函数 第6章 定制空间数据类和方法 6.1 使用类和方法编程 6.1.1 s3型类和方法 6.1.2 s4型类和方法 6.2 程序包trip中的动物足迹数据 6.2.1 通用函数和构造函数 6.2.2 trip对象的方法 6.3 多点数据:空间多重点 6.4 六边形网格 6.5 时-空网格 6.6 蒙特卡洛模拟的空间分析 6.7 大型网格的处理 第二部分 空间数据分析 第7章 空间点模式分析 7.1 概述 7.2 空间点模式分析包 7.3 点模式的初步分析 7.3.1 完全空间随机模式 7.3.2 g函数:最近邻事件距离 7.3.3 f函数:一个点到其最邻近事件的距离 7.4 空间点过程的统计分析 7.4.1 同质泊松过程 7.4.2 非同质泊松过程 7.4.3 强度的估计 7.4.4 非同质泊松过程的似然 7.4.5 二阶特性 7.4.6 非同质的k函数 7.5 在空间流行病中的一些应用 7.5.1 病例控制研究 7.5.2 二元回归估计 7.5.3 使用广义加模型的二元
©️2021 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值