自己在写毕业论文时首次接触到因子分析法,中途遇到了一些问题,后来查找资料都解决了,所以在这里总结一下~
#举个简单粗暴的例子#
A:你喜欢什么样的女生?
B:哈哈哈哈 那当然是双眼皮、高鼻梁、大长腿、樱桃小嘴、肤如凝脂、胸大屁股翘、温柔可爱、善解人意、做饭香香、高学历、高智商、原生家庭和睦、父母有正经职业的女孩子啦!
A:?????我TM数了数,你丫这初步要求就有12个啊?
我们也发现B这个哥们儿要求多对不对?此时我们用因子分析的思想,来看看他到底喜欢什么样的女生。
我们把双眼皮、高鼻梁、樱桃小嘴可以归为一类,称为“颜值因子”;把大长腿、肤如凝脂、胸大屁股翘归为一类,称为“体态因子”;把温柔可爱、善解人意归为一类,称为“性格因子”;把原生家庭和睦、父母有正经职业归为一类,称为“家庭因子”,把高学历、高智商归为一类,称为“智商因子”。
经过因子分析以后,我们发现B对女孩子的要求就不是12个,而是5个——颜值、体态、性格、家庭、智商。这就是因子分析的本质思维:降维。
以上是因子分析的基本思路,但也仅仅是基本思路。为什么用“仅仅”两个字呢?因为在因子分析整个过程中,会有很多细节决定成败的问题。
还是以B同学为例,哪些择偶要求适合做因子分析呢(原始变量相关性检验)?归纳完以后的因子分别是哪些(构造因子变量)?每个因子代表哪些原始要求(因子旋转)?每个因子占比多少呢(计算因子得分)?是不是别的男生也可以这样分析(实证检验)?
很幸(操)运(蛋),以上问题我在写论文的时候都遇到了,所以有一些解决方法可以分享。
1.相关性检验
因子分析法的使用前提是原始变量存在相关性。这很好理解,我要把一些原始表量归纳为一类,就需要它们代表同一种属性。万一它们互不相关、自成一派,那根本没办法归纳,无法降维,也就无法进行因子分析。
在stata中进行一般使用巴特利特球形检验和KMO检验。
巴特利特球形检验用于检验相关阵是否是单位阵,即各变量是否独立。它是以变量的相关系数矩阵为出发点,零假设:相关系数矩阵是一个单位阵。如果巴特利球形检验的统计计量数值较大,且对应的相伴概率值小于用户给定的显著性水平,则应该拒绝零假设;反之,则不能拒绝零假设,认为相关系数矩阵可能是一个单位阵,不适合做因子分析。若假设不能被否定,则说明这些变量间可能各自独立提供一些信息,缺少公因子。一般实证中,p值小于0.05就可以进行下去。
KMO统计值是通过比较各变量间简单相关系数和偏相关系数的大小判断变量间