14.主成分分析和因子分析

主成分分析

它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化

问题的提出

对于问题的研究,多变量问题是经常遇到的,变量太多,无疑会增加问题分析的难度和复杂度
用比较少的变量代替原来较多的旧变量,且使得这些比较少的新变量尽可能多保留原来变量反应的信息,把多个变量划为少数几个综合指标的一种统计分析方法。
去除噪声和不重要的特征,从而首先提升数据处理速度。

简单的例子

做一件衣服需要测量的指标,是否需要归一化,就可以知道对应分数所在的权值
思路就是把数用矩阵的线性组合表示

这个时候就需要求解系数

eig(R) %计算特征值和特征向量

1.标准化矩阵,计算协方差即:直接计算相关系数矩阵。

2.先计算特征值和特征向量,然后就可以计算累计贡献率,单个特征值在整体中的占比。

进行排序取出贡献了比较高的特征值。

3.根据系数分析主成分代表的意义

4.利用主成分分析的结果进行后续的分析。

结题步骤

  1. 计算关键变量,特征值,特征向量,贡献率
  2. 计算相关系数矩阵,就是两个变量之间的关系
  3. 过后就可以得到特征值,对应每个都有一个特征向量
  4. matlab中默认采用了归一化处理
  5. 从而利用特征值计算贡献率
  6. 这里注意一个问题!不能用来做评价类问题
  7. 再看累加贡献率达到90%或者80%最后就可以得到一个结果。

系数可以介绍为载荷

则在衣服设计的过程中需要考虑的因素有身体大小,胖瘦,臂长

主成分的解释含义多少带一点模糊性,不像原始变量的含义那么清楚,确切

变量降维过程中付出的代价

主成分分析的困难之处主要在于能够给出主成分的较好解释,所以提取的主成分中如果有一个主成分解释不了,整个主成分分析也就失败了

主成分分析是变量降维的一种重要,常见的方法,简单来说,该方法要应用成功,一是靠原始变量选取合理,二是靠运气。

分析的一种思路

对所有变量上有几乎一样的正载荷,可以称作整体竞赛水平的强弱。

[n.p]=size(x) %样本个数和标准化后的结果
x=zscore(X) %计算样本的协方差矩阵
R=corrcoef(X)%计算相关系数矩阵
[V,D]=eig(R);%计算特征向量矩阵

适合对数据本身相关性强的进行降维操作。

主成分分析使用,主成分得分(不科学应用)

主成分分析会损失数据

指标可能有多种类型,不能直接计算

真正的应用–用于聚类,

用第一主成分和第二主成分进行聚类分析。

同样也可以得到比较好的结果

在原来数据比较高维的情况。

可以可视化最后聚类的效果,需要用在指标之间存在很强的相关性的时候才可以应用

因为使用毕竟会损失数据。

主成分分析解决多重共线性的方法。

因子分析

因子分析法通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值