4.1 选择解释变量
- 经济理论高于统计结果
- 遗漏变量后,参数估计有偏误且非一致,方差减小
- 加入了不相干变量后,无偏但是非有效,方差增大,t检验失败
- 赤池信息准则(AIC)和施瓦茨信息准则(SC)
- A I C = 2 k n + ln R S S n AIC=\frac{2k}{n}+\ln{\frac{RSS}{n}} AIC=n2k+lnnRSS
- S C = k n ln n + ln R S S n SC=\frac{k}{n}\ln{n}+\ln{\frac{RSS}{n}} SC=nklnn+lnnRSS
- AIC和SC准则对增加解释变量加大了惩罚,其中SC惩罚比AIC更严厉。相对而言,AIC和SC的值越低,模型越好
- 模型设定准则
- 变量在方程中应当含义清晰
- t检验,解释变量参数的估计值在预期假设下应当显著
- 调整的判定系数或AIC和SC,加入变量后整体拟合优度应改善
- 偏误,将变量加入方程后,其他变量参数是否有显著变化
- 模型设定搜索
- 数据挖掘
- 适当的数据挖掘有利于揭示经济论尚未说明的经济规律
- 不适当的数据挖掘,相当于对数据严刑拷打,过度解释
- 敏感性分析:稳定性(robust)分析
- 数据挖掘
4.2 模型设定
- 函数形式的选择
- 不含常数项的回归
- 回归模型的函数形式
- 函数形式的选择
- 不含常数项的模型
- Y i = β 1 X i + ε i Y_i=\beta_1X_i+\varepsilon_i Yi=β1Xi+εi
- 可以证明:
- 参差均值不一定为0
- 拟合优度的判定系数可能出现负值
- 除非有非常强的先验经验,否则还是采取含有常数项的模型
- 参数线性,不限制变量线性,下列可线性化的非线性函数
- 指数函数
- y i = a e b x t + ε t ⇒ ln y t = ln a + b x t + ε t y_i = ae^{bx_t+\varepsilon_t} \Rightarrow \ln{y_t}=\ln{a}+bx_t+\varepsilon_t yi=aebxt+εt⇒lnyt=lna+bxt+εt
- 半对数线性模型,如复利公式:
-
Y t = Y 0 ( 1 + r ) t e ε t ⇒ ln Y t = ln Y 0 + t ln ( 1 + r ) + ε t = β 0 + β 1 t = ε t Y_t=Y_0(1+r)^te^{\varepsilon_t}\\\Rightarrow \ln{Y_t}=\ln{Y_0}+t\ln{(1+r)}+\varepsilon_t\\=\beta_0+\beta_1t=\varepsilon_t Yt=Y0(1+r)teεt⇒lnYt=lnY0+tln(1+r)+εt=β0+β1t=εt
- 对数函数
- Cobb-Douglas生产函数,取对数后两侧都是对数
- 反函数形式
- Y i + β 0 + β 1 1 X i + ε i Y_i+\beta_0+\beta_1\frac{1}{X_i}+\varepsilon_i Yi+β0+β1Xi1+εi
- 多项式形式
- Y i = β 0 + β 1 X i + β 2 X i 2 + ε i Y_i=\beta_0+\beta_1X_i+\beta_2X_i^2+\varepsilon_i Yi=β0+β1Xi+β2Xi2+εi
- 指数函数
- 如何选择函数形式
- 选择经济理论给出的特定函数形式
- 选择模型的参数应满足一定的先验预期
- 党多个模型能很好的拟合数据时,往往根据选择调整的判定系数较高或者AIC和SC较小的模型,但是当Y被变换时,这些指标不具可比性
5.1 多重共线性的定义
- OLS的基本假设
- 回归模型是线性的,模型设定无误且含有误差项
- 误差项总体均值为0 E ( ε i ) = 0 E(\varepsilon_i)=0 E(εi)=0
- 所有解释变量与误差项都不相关 C o v ( X i , ε i ) = 0 Cov(X_i,\varepsilon_i)=0 Cov(Xi,εi)=0
- 误差项观测值互不相关(无序列相关性) C o v ( ε i , ε j ) = 0 Cov(\varepsilon_i,\varepsilon_j)=0 Cov(εi,εj)=0
- 误差项具有同方差(不存在异方差性) V a r ( ε i ) = σ 2 Var(\varepsilon_i)=\sigma^2 Var(εi)=σ2
- 任何一个解释变量都不是其他解释变量的完全线性函数(不存在完全多重共线性)
- OLS的基本假设
- 数据矩阵X列满秩
- 随机误差项的总体均值为0 E [ ε ] = 0 E[\varepsilon]=0 E[ε]=0
- 随机误差项与解释变量不相关 E [ ε ∣ X ] = 0 E[\varepsilon | X]=0 E[ε∣X]=0
- 随机误差项同方差互不相关 E [ ε ε ′ ] = σ 2 I E[\varepsilon\varepsilon']=\sigma^2I E[εε′]=σ2I
- 多重共线性的表现特征
- 可能出现F检验显著,单个系数的t检验不显著
- 偏回归系数符号不符合预期,切对模型设定变化非常敏感
- 可能出现偏回顾系数不显著,但是总拟合优度 R 2 R^2 R2却可能非常高
- multi-collinearity的定义:回归模型中的一些或全部解释变量之间存在一种完全或不完全的线性关系
- 如果是完全多重共线性 , X ′ X X'X X′X的逆不存在, X ′ X = β = X ′ y X'X=\beta=X'y X′X=β=X′y的解不唯一
- 如果时不完全多重共线性,
X
′
X
X'X
X′X的逆存在,
X
′
X
β
=
X
′
y
X'X\beta=X'y
X′Xβ=X′y有唯一解
β
^
=
(
X
′
X
)
−
1
X
′
y
\hat{\beta}=(X'X)^{-1}X'y
β^=(X′X)−1X′y
- 不完全多重共线性用OLS人可以得到参数估计及其标准误,并且是无偏的,但估计量的标准误非常大,估计精度很小
- 不完全多重共线性对预测的影响
- 单纯做预测的话,如果不完全共线性结构在样本和未来能保持一致,那么问题不大
- 如果不完全共线性的结构在未来变化,则预测是非常冒险的
5.2 多重共线性的诊断和规避
- 多重共线性的来源
- 多重共线性的诊断
- 这是一个程度问题,不是有无问题
- 解释变量之间的相关系数矩阵,一般认为相关系数超过0.8时比较大的
- 可以用F检验
- 解释变量多于两个,求的是偏相关系数而不是相关系数,相关系数只是参考,不是标准
- 通过回归模型的估计结果来看如上一节所述
- 方差膨胀因子(VIF),一般VIF>5被认为存在多重共线性
- 多重共线性的补救措施
- 剔除支配变量(剔除被解释变量的替代物,如成绩和排名)
- 增加样本容量(多重共线性是一个样本问题)
- 剔除多余的变量
- 根据经济理论,具体现象具体分析
- 变换解释变量
- 一阶茶粉
- 两个变量相除
- 主成分分析法,原变量的合成
- 因子分析法,把原变量分解为更基本的结构
- 问题比较严重了,如符号不如预期了再用上述方法
5.3 多重共线性的案例
6.1 序列相关性的概念
- 随机误差项同方差且不相关 E [ ε ε ′ ] = σ 2 I E[\varepsilon\varepsilon']=\sigma^2I E[εε′]=σ2I称之为球形扰动项
- 若 E [ ε ε ′ ] ≠ σ 2 I E[\varepsilon\varepsilon'] \neq \sigma^2I E[εε′]̸=σ2I,称为非球形扰动项
- 两种典型的非球形扰动项
- 序列相关
- 异方差
- 序列相关又称为自相关
- 一阶序列相关 ε 1 = f ( ε t − 1 ) \varepsilon_1=f(\varepsilon_{t-1}) ε1=f(εt−1)
- 高阶序列相关 ε 1 = f ( ε t − 1 , ε t − 2 , ε t − 3 , ⋯   ) \varepsilon_1=f(\varepsilon_{t-1},\varepsilon_{t-2},\varepsilon_{t-3},\cdots) ε1=f(εt−1,εt−2,εt−3,⋯)
- 序列相关通常假定为线性序列相关,一阶形式
ε
t
=
ρ
ε
t
−
1
+
u
t
\varepsilon_t=\rho\varepsilon_{t-1}+u_t
εt=ρεt−1+ut
- 其中 ρ \rho ρ是一阶自相关系数,且 ∣ ρ ∣ < 1 |\rho|<1 ∣ρ∣<1; u t u_t ut为白噪声序列,满足 E ( u t ) = 0 E(u_t)=0 E(ut)=0, V a r ( u t ) = σ u 2 Var(u_t)=\sigma_u^2 Var(ut)=σu2, C o v ( u t , u t + s ) = 0 , s ≠ 0 Cov(u_t,u_{t+s})=0, s\neq0 Cov(ut,ut+s)=0,s̸=0
- 根据自相关系数
ρ
\rho
ρ的取值,序列相关可分为
- ρ > 0 ⇒ \rho>0 \Rightarrow ρ>0⇒正序列相关
- ρ < 0 ⇒ \rho<0 \Rightarrow ρ<0⇒负序列相关
- ρ = 0 ⇒ \rho=0 \Rightarrow ρ=0⇒无序列相关
- 序列相关的类型
- 非纯序列相关
- 由设定偏误导致,如遗漏变量、不正确的函数形式等
- 纯序列相关
- 非纯序列相关
6.2 序列相关的后果
- 在纯序列相关的情形下
- OLS估计量仍然是无偏的
- OLS估计量不再是有效的(最小方差估计量)
- 标准误的OLS估计量是有偏的,且通常是负的,意味着OLS通常高估参数t值,导致原本不显著的变量可能变得显著
- 序列相关行的检验(基于残差)
- 图解法,将残差对时间描点,以发现时间上的特定关联
- 德宾-沃森(Durbin-Watson)检验
- 需要模型含截距项
- 需要序列相关是一阶序列相关
- 回归模型不能把滞后被解释变量作为解释变量
- DW检验,d统计量仅仅依赖于残差
- d和自相关系数 ρ \rho ρ的关系: ρ \rho ρ[-1,0,1] = d[4,2,0]
- 因为方差不一定服从正态分布,再加上残差依赖于X,d的统计量难以估计
- BG检验(布劳殊-戈弗雷检验),又称LM检验
- 克服了DW检验的困难
6.3 序列相关的补救措施
- 非纯序列相关,通过修正模型设定来解决
- 纯序列相关的修正
- 广义最小二乘法GLS:广义差分法
- 已知序列相关结构
- 未知自相关系数时估计 r h o rho rho
- AR方法
- Newey-West方法(HAC)
- 广义最小二乘法GLS:广义差分法
7.1 异方差的概念和表现
- 随机干扰项的方差会随着下标变化
- v a r ( ε i ) = σ i 2 = σ 2 Z i 2 ( i = 1 , 2 , . . . , N ) var(\varepsilon_i)=\sigma^2_i=\sigma^2Z^2_i (i=1,2,...,N) var(εi)=σi2=σ2Zi2(i=1,2,...,N)
- 上式中Z称为外生变量,也可能是X,称为比例因子
- 非纯异方差,一般由模型设置偏误导致,如遗漏变量
- 纯异方差,数据的本身结构会变化导致
- 横截面数据:被解释变量取之差异较大
- 时间序列:学习效率、数据采集技术的变化导致
- 异常值
- 纯异方差下的表现:
- OLS估计量仍然是无偏的
- OLS估计不再是有效的
- 标准误的OLS估计量是有偏的,且通常是负的,意味着OLS通常高估参数t值,导致原本不显著的变量可能变得显著
- 若异方差存在,OLS估计的假设检验不可靠
7.2 异方差性的检验
- 异方差的检验
- 图解法
- 帕克检验
- 采用OLS估计。。。
- 怀特(White)检验
- 基本思想: 异方差来自于解释变量及其高次方
- 构造卡方分布。。。
7.3 异方差补救措施
- 非纯异方差,解决模型设定错误
- 纯异方差的补救
- 广义最小二乘法:加权最小二乘法(除以比例因子)
- 修正异方差的标准误:White方法
- 重新定义新变量
8.1 虚拟变量的含义
- 经济变量
- 可以定量度量
- 不可以定量度量:职业、性别、战争、自然灾害等
- 虚拟变量 : 定性变量
- 如引入变量Sex,男性为1女性为0