主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维的处理方法。
目录
主成分分析思想:
每一行是一个样本,每一列是一个指标。
z1,z2······zm都是原始的p个指标的线性组合。
https://www.bilibili.com/video/av32709936
主成分分析计算步骤(可写入论文)
矩阵标准化
标准化此处采用Z标准化,最终得到标准化后的矩阵X。
计算标准化样本的协方差矩阵
编程时直接计算x矩阵的样本相关系数矩阵即可。
计算R的特征值和特征向量
计算主成分贡献率以及累计贡献率
写出主成分
根据系数分析主成分代表的意义
对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。
利用主成分的结果进行后续的分析
- 主成分得分不能用于评价模型
- 主成分分析可用于聚类,主成分聚类(指标很多且指标之间相关性很强)
- 主成分可用于回归分析,主成分回归
主成分分析例题1
本题可以直接从第三部开始计算。
计算关键变量
MATLAB求得的特征值默认进行了归一化。
写出主成分并简要分析
三个主成分称为什么是自己根据数据自己解释的。
主成分分析的困难之处主要在于要能够给出主成分较好的解释,所以提取的主成分中如果有一个主城扥解释不了了,整个主成分分析也就失败了。
主成分分析例题2
计算关键变量
前两项累计贡献率达到93.7%,后面的成分贡献率很低。若题中指标很多可省略不写,若指标不多,最好写全。
对主成分的简要分析
例题三,使用MATLAB实现主成分分析
程序都是类似的
load data1.mat%导入数据
[n,p] = size(x); % n是样本个数,p是指标个数
%% 第一步:对数据x标准化为X
X=zscore(x); % matlab内置的标准化函数(x-mean(x))/std(x)
%% 第二步:计算样本协方差矩阵
R = cov(X);
%% 注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵
%R = corrcoef(x);
%disp('样本相关系数矩阵为:')
%disp(R)
%%有必要时可以把R放到论文中
%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列
[V,D] = eig(R); % V 特征向量矩阵 D 特征值构成的对角矩阵
%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D); % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1); % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda); % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda); % 计算累计贡献率 cumsum是求累加值的函数
disp('特征值为:')
disp(lambda') % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
% rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)
%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数: ');
F = zeros(n,m); %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
ai = V(:,i)'; % 将第i个特征向量取出,并转置为行向量
Ai = repmat(ai,n,1); % 将这个行向量重复n次,构成一个n*p的矩阵
F(:, i) = sum(Ai .* X, 2); % 注意,对标准化的数据求了权重后要计算每一行的和
end
##获得主成分之后可以进行聚类或者回归##
注意
1.面对多重共线性问题时,我们可以即用主成分分析,有用逐步回归,若主成分分析解释不清就只用逐步回归。
2.主成分回归后,不需要将原来的变量带回到原来的回归方程了