一、应用背景:
主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
简单点说:指标太多不好分析,简化它,把主要的找出来分析。而我们需要通过数学方法证明(或者是叫找到)哪些是主要的再进行分析。
二、应用步骤
1、(注:以下为17的地方实际上代表了样本数,5代表了指标数,实际应用应实际确定)
这一步几乎是所有数据处理中的通用步骤
上面的xj代表了向量,实际是就是对数据每一列(同一指标)进行了标准化
2、
对于分子的的理解:
例如r11 = a11*a11+a21*a21+a31*a41+......+a17 1*a17 1(项数为样本个数)
r12 = a11*a12+a21*a22+a31*a32+...+a17 1*a17 2;
r32 = a13*a12+a23*a32+....a17 3 *a17 2;
由此可见也不是有人工的、可以想象的规律,仅从应用模型的角度来讲,学会在matlab中调用函数就够了。
3、
解释:
这里我有个一问特征值数一定等于列数吗 这一步当中的特征值的求解和标准化向量怎么来的不是很清楚。
然后对于
uj本身就是一个向量,里面还有数(注意这里没有出现行数有关的,全是列数)
然后构造新变量y,也是有“指标”个,其没有任何实际意义。
4、
信息贡献率:当前特征值除以特征值总和
累计贡献率:前面的特征值相加
然后看占比,找出主要的指标,进行分析
仅记录自己学习的心得与体会