计量经济学stata考试准备
1. 普通的最小二乘法使用以及相关参数的查询
- 最小二乘回归
reg var_bei var_zi_1 ..
- 基本参数查看
- 查看数据的基本信息(如最值,均值等)
sum
可以用于查看所用参数的基本数值的描述
- 可视化散点图和拟合直线
twoway(scatter var_Y var_X)(lfit var_Y var_X)
画出拟合直线与所有数据的散点图
- 预测值和计算残差
predict var ---- 创建一个新的变量来存贮预测得到的值
predict var ,residual 预测方程的残差
或者就是通过手动直接计算
generate var = var_Y - var_P
generate var_2 = var^2 可以得到残差的平方和,后面检验时有用,也可以用于手动计算R^2
- 预测新的自变量导入的值
确保你加载了包含已经拟合好的回归模型的数据集,并且这个数据集中包含了所有用于拟合模型的自变量和因变量。
使用 use 命令加载包含新自变量数据的数据集。
运行 predict 命令,指定 newdata 选项并提供包含新自变量数据的数据集名称。同时,使用 yhat 选项指定你想要保存预测结果的新变量名称。例如:
use "new_data.dta" // 加载包含新自变量数据的数据集
predict Y_hat, newdata("new_data.dta") yhat // 预测因变量的值并保存在 Y_hat 变量中
2. 参数是线性的模型
模型错误和参数遗漏,与无关变量的采用其实不太好发现,以理论为准
通过generate函数来计算生成新的变量用于回归
- 多项式函数及其其他函数
采用多项式函数其实是为了需要更符合参数变化的趋势从而来使用线性模型;使趋势更加地贴合
generate A_2 = A^2
reg Y A A_2
# 其实就是一个线性的模型,只是A与A^2相关
- 取对数
取对数主要是需要处理规模带来的问题
generate ln_A = ln(A)
generate ln_Y = ln(Y)
reg ln_Y ln_A
- 遗漏变量和无关变量
后果:
遗漏变量:系数有偏,方差变小(注意符号不符,可以通过重新设立变量来检查)
无关变量:系数无偏,方差偏大
- 四准则
理论是否合理
t检验是否好转
调整判定系数的变化
系数是否存在偏误
3. 多重共线性及其涉及到的问题(违背假设6,不是列满秩)
多重共线性大多可以通过理论察觉到;
- 后果:
统计量无偏,标准差偏大,t检验会不显著
- 多重共线性的诊断:
相关系数矩阵:
pwcorr var_1 var_2 ...(其中的变量是自变量)
方差膨胀因子:
vif
可以直接查看各个变量的方差膨胀因子,从而方便地检测多重共线性;(通常使用这个来检测多重共线性)
- 多重共线性地解决:
无为而治:
多重共线性导致的问题其实只是方程不准确而已,甚至不会存在用于估计时会产生错误,在应用的情况下其实可以不用管,它是满足方程;
剔除多余变量:
去掉其中一个变量,如果理论允许的话;
函数法:
将相关的变量建立为一个函数,用一个参数来估计就行,大多数情况会采用,例如两者相除,两者相减等;
4.异方差性(违背假设5,不是同方差)
异方差性大多是规模带来的问题,随着解释变量的变化,方差的值也会有显著的变化,也有可能是由于遗漏变量所导致的;
- 后果:
纯异方差性并不会导致系数有偏,是会导致方差不是最小的,但是非纯异方差(因为遗漏变量导致)有可能导致估计得系数是有偏的,会导致方差偏小而导致t检验的t值会变大;
- 异方差的检验:
BP检验:
以残差平方作为被解释变量,将所有的解释变量作为方程的解释变量,构造线性方程,求出未调整的R^2系数,并将其乘以N,对其进行服从自由度为解释变量个数的卡方检验,是否拒绝;
计算的时候采用手动进行计算;
white检验:
怀特检验比BP检验考虑得更加全面,但是方法差不多还是一样的;
最好还是进行手动计算,和BP检验一样;
park检验:
简单介绍一下帕克检验,帕克检构造了一个新的方程,ln_e_2 = β0 + β1*ln_var然后对变量的参数进行t检验;
相对于前面的两种办法比较单一;
- 异方差的补救措施:
HC标准差调整补救办法:
以为异方差是导致了标准差发生了变化所以我们可以考虑只改变标准差,所以我们可以构造一个矩阵来解决这个问题;white检验为我们提供了HC标准差,是被调整过后的标准差;
reg var_Y var_x_1 var_x_2 ..., rubost
运行出来的结果就是经过HC标准调整过后的方程;
重新定义变量:
因为异方差性主要是因为变量的规模问题带来的,所以我们可以考虑对变量进行一些变化;有两种办法,一个是可以通过重新选择变量或者进行取对数,这里详细讨论取对数的方法;
一般会使用双对数模型,视情况而定;
因为这样很有可能就不再是线性的了;
5.序列相关性(违背假设4,误差值和变量相关)
- 产生原因:
由于数据的选择可能和时间相关,所以产生的误差项有可能时间与期数相关,导致每n期的数据可能出现关联;方程设定的错误也有可能会导致;3
- 后果:
不会导致参数是有偏的,但是有效性不再成立,会使得方差偏小,由此会导致t检验呈现显著;
- 检验:
杜宾沃森d统计量:(条件:含截距项,系列相关是一阶的序列相关,被解释变量不能是滞后解释变量;)
原始的计算公式为,残差差值的平方和除以残差平方和; = 2(1-p),其范围是[0, 4]
先建立回归方程;
然后需要设置一个时间变量
tsset var(注意,这里的变量一定是和时间相关的整数)
然后计算杜宾沃森统计量;
estat dwatson
可以计算得到d值,d值还可以用于估计p值,也可与直接用于d值双侧检验;
拉格朗日乘数法:
手动计算方法
需要建立方程:et = β0 + … +βn+1*et-1 + ut
# 用于生成滞后变量
generate lagged_e = L.e
然后进行线性回归
取得R^2和样本数,相乘得到一个卡方的值,检验自由度为1的卡方分布;
- 补救措施:
广义最小二乘法:
原理:Yt = β0 + … +βn*Xnt + ut, 因为 ut = put-1 + u, 所以可以尝试使用低一阶的方程构造出来;
Yt-1 = β0 + … +βnXnt-1 + ut-1, 可以得到Yt - pYt-1 = β0(1 - p) + … +βn(Xnt - Xnt-1) + ut - put-1 =Yt - pYt-1 = β0(1 - p) + … +βn*(Xnt - Xnt-1) + u; 从而可以得到:
Yt* = β0* + … +βn*Xnt* + u
但是该方法的关键是求出p的值,这个我们可以通过d基本将其估计出来;
但是这里采用一个稍微类似的方法来进行,和差分法类似;
没有在stata上找到解决办法;
NW标准差法:
newey Y PC PB YD, lag(1)
解决一阶的序列相关性
6.虚拟被解释变量
- 解释的方法:
线性概率模型:
尽管因变量是虚拟变量,但是仍然使用它进行线性回归,所以,与此同时,这样会带来很多的问题:
1、 调整判定系数不能准确度量模型的整体拟合优度;因为它几乎都会非常地不显著;
2、 因变量不会以0和1为界;因为是线性的方程所以会变得很大或者很小;
3、 线性概率模型的误差项会呈现异方差性,也不会服从正态分布;
R^2p的计算方法是计算1和0被正确解释的百分比,然后对其取平均值
二元logit模型:
采用最大似然法进行估计,方程格式为Y= 1/1+e-yi 其中yi用线性方程的形式来进行表示;
logit var_Y var_X_1 ...用于建立logit模型
解释参数估计值的意义:
1、 机会比率的变化的倍数,取一个e的指数;
2、 偏导数来计算概率的变化,或者直接使用β*0.25来进行计算;
probit模型:
用的是正态分布的积分函数;
probit var_Y var_X_1 ...用于建立probit模型
logit/正态分布 参数的比值大概是π^2 / 3倍
预测方法和线性函数是一样的;
7. 雅阁贝拉正态性检验
预测出残差画出图像进行初步检验
histogram residuals, normal
计算峰度和偏度进行雅阁贝拉检验
sktest residuals
怀着激动的心情发的第一篇article,激动的心颤动的手😊🤗