主成分分析和因子分析是统计学习中比较重要的知识点,然而相关的理论知识经常学了忘忘了学,所以还是在知乎写写增加一下印象吧。
一.主成分分析的目的:
将多个具有相关关系的变量综合成少数几个不相关的综合指标,以实现降维的目的。
先从一个例子看起:
假设一个50人的班级,在经过一次考试后,记录了每个同学的语文、数学、英语、物理、化学、生物的成绩,应该怎么去看每个同学在这次考试中的表现呢?
通常班主任的做法是分别查看每科同学的成绩,最后根据所有科目的平均成绩来衡量每个同学在这次考试中的整体表现。
然而实际情况是部分同学偏科,有的科目成绩很高,而有的科目成绩偏低,从而导致平均成绩不上不下,因此我们希望看看哪些同学在文科科目的表现比较好,哪些同学在理科科目的表现比较好。这时,我们想,语文、英语、生物是属于文科类科目,数学、物理、化学属于理科类科目,我们可以将原来的六个变量变为两个综合指标,一个指标是用来表现文科科目成绩的,称为文科主成分;另一个指标用来表现理科科目成绩,称为理科主成分。如果有了每个同学在这两个综合指标上的得分,将得分排序,就可以轻易看到各个同学的表现情况了。那么,如何来做这件事,就是主成分分析要做的事情了。
二.总体主成分推导过程
主成分的思想就是对原来的指标做线性组合,如下图。