最近在学习STATA做分析的时候,发现这个软件很多功能很强大,但是背后的统计学知识要求也比较高,作为一边深入学习统计知识一遍用软件的小白,好多东西只是知其然不知其所以然,因此尝试自己把STATA的一些运算分解出来。因此这里记录一下学习内容。
在做STATA的主成分分析和因子分析的时候,觉得这两个东西很像,但是其中的原理好像也不太清楚,网上查了一些文章,花了不少时间才明白怎么做的,这里演示一下具体的做法。 对于这两个分析的说明,可以参考https://www.zhihu.com/question/23685740。https://wenku.baidu.com/view/33403b68ddccda38376baf6e.html
个人感觉主成分分析是因子分析的一个特例,或者说简单版本吧。先上代码:
df
Out[32]:
V2 V3 V4 V5 V6 V7
0 37066.0 26638.1 29218 11.2 7539 14210
1 52692.0 34634.4 30510 11.5 8394 14524
2 76909.0 46759.4 33261 12.4 9281 14608
3 91893.8 58478.1 35730 13.6 10077 15005
4 99595.3 67884.6 36454 14.0 10813 15733
5 113732.7 74462.6 38368 13.7 11356 16074
6 119048.0 78345.0 38046 12.5 11670 16100
7 126111.0 82067.0 40496 10.5 12393 16000
8 85673.7 89403.5 44452 10.0 13556 16300
df_uni = df.apply(lambda x: (x - x.mean()) / x.std())
df.corr()
Out[34]:
V2 V3 V4