今天把潜变量和降维分析的方法合起来给大家写写,因为这两个东西之间有诸多共同之处。
潜变量
为啥需要潜变量呢?考虑一个问题,比如你想测测一个人有多幸福,你怎么测?
估计你会看看这个人:
- 脸上有没有笑容
- 有没有加薪
- 是不是健康
- 爱不爱交际
等等,你试图通过这么一些可以测量的指标来反映一个人的所谓的幸福的状况,这个是我们自然而然想得到的,因为我们心里明白幸福是一个抽象概念,不能直接测,所以叫做潜变量。
降维Dimension Reduction/Compression
在机器学习中专门有讲降维的算法,但是在社会科学领域运用较多的还是因子分析和主成分分析。我们一个一个来看:
主成分分析
主成分分析是因子分析中提取因子的一个重要技巧,它要做的事就是从一系列的变量中提取成分,每个成分我们都希望它能解释原始数据尽可能多的变异。
记住一句话:成分是原始变量的线性组合。
Components are linear combination of the original variables.
在做主成分分析的时候我们会得到和变量一样多的成分,每个成分都会比前一个成分解释的变异少一点,然后所有成分解释原始数据变异的100%。
理论上我们可以从成分中完全复原我们的原始数据,但是我们的目的是要降维嘛,所以我们通常不会保留所有的成分,只会保留主成分。