主成分分析(principal component Analysis),是由皮尔逊(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。
在实际问题中,为了尽可能完整的获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的疏漏,但也增加了分析的复杂性,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。这样容易抓住事物的主要矛盾,使得问题得到简化。
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。
本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。