热烈欢迎张晓峒老师成为免费问答平台的学术委员会主席!
问题1: 关于GPCA(全局主成分分析模型)的相关Stata 命令
老师能否给一个使用全局主成分分析法,包括Stata命令的参考案例?
回答1
1.Stata可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。
(1)sysuse auto,clear
pca trunk weight length headroom
pca trunk weight length headroom, comp(2) covariance
(2)webuse bg2,clear
pca bg2cost*, vce(normal)
2.Estat
estat给出了几个非常有用的工具,包括KMO、SMC等指标。
webuse bg2,clear
pca bg2cost*, vce(normal)
estat anti
estat kmo
estat loadings
estat residuals
estat smc
estat summarize
3.预测
Stata可以通过predict预测变量得分、拟合值和残差等。
webuse bg2,clear
pca bg2cost*, vce(normal)
predict score fit residual q (备注:q代表残差的平方和)
4.碎石图
碎石图是判断保留多少个主成分的重要方法。命令为screeplot。
webuse bg2,clear
pca bg2cost*, vce(normal)
screeplot
5.得分图、载荷图
得分图即不同主成分得分的散点图。命令为scoreplot。
webuse bg2,clear
pca bg2cost*, vce(normal)
scoreplot
6.旋转
对载荷进行旋转的命令格式为rotate。
webuse bg2,clear
pca bg2cost*, vce(normal)
rotate
问题2: 有关数据分析的几个问题
在用中国工业企业数据库的微观企业面板数据进行实证分析,被解释变量是y,核心解释变量是x和x^2,检验x对y的影响是否是U型,即一次项回归系数是负的,二次项回归系数是正的,还包括一些其它控制变量,回归方程是xtreg y x x^2, fe。我的问题包括:
第一,在做企业固定效应时,stata自动对100多万样本分了几十万聚类,是否还有必要在回归中加入聚类(cluster),如果要加入聚类的话,应该加入什么层面的聚类?比如省层面、地级市层面、县层面、行业层面、企业层面?有人提出cluster的数目不能太少,至少应该大于42&#