机器学习(十三):CS229ML课程笔记(9)——因子分析、主成分分析(PCA)、独立成分分析(ICA)

1.因子分析:

高维样本点实际上是由低维样本点经过高斯分布、线性变换、误差扰动生成的,因子分析是一种数据简化技术,是一种数据的降维方法,可以从原始高维数据中,挖掘出仍然能表现众多原始变量主要信息的低维数据。是基于一种概率模型,使用EM算法来估计参数。因子分析,是分析属性们的公共部分的表示。

 Exploratory Factor Analysis (EFA) is often referred to as Factor Analysis (FA) or as common Factor Analysis (no, not abbreviated as CFA, CFA is Confirmatory Factor Analysis).

 

 

 

2.主成分分析(PCA)也是一种特征降维的方法。 主成分分析,是分析维度属性的主要成分表示。 
学习理论中,特征选择是要剔除与标签无关的特征,比如“汽车的颜色”与“汽车的速度”无关;PCA中要处理与标签有关、但是存在噪声或者冗余的特征,比如在一个汽车样本中,“千米/小时”与“英里/小时”中有一个冗余了。 我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。PCA将n个特征降维到k个,可以用来进行数据压缩,如果100维的向量最后可以用10维来表示,那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA要保证降维后,还要保证数据的特性损失最小。

https://towardsdatascience.com/a-step-by-step-explanation-of-principal-component-analysis-b836fb9c97e2

https://towardsdatascience.com/a-step-by-step-explanation-of-principal-component-analysis-b836fb9c97e2

 

目的:降维,连续变量

reduce the dimensionality of large data sets, by transforming a large set of variables into a smaller one that still contains most of the information in the large set.

Step 1: Standardization

why: 未标准化的PCA 对变量初始值敏感。如果不标准化,初始变量范围大的属性会占领主成分。

the reason why it is critical to perform standardization prior to PCA, is that the latter is quite sensitive regarding the variances of the initial variables. That is, if there are large differences between the ranges of initial variables, those variables with larger ranges will dominate over those with small ranges (For example, a variable that ranges between 0 and 100 will dominate over a variable that ranges between 0 and 1), which will lead to biased results. So, transforming the data to comparable scales can prevent this problem.

method:subtracting the mean and dividing by the standard deviation for each value of each variable.

z = (value - mean) / (std)

Step 2: Covariance Matrix computation

why: 协方差矩阵可以表示属性之间的关系。变量之间高度相关表示它们包含冗余信息。为了确定这些相关性,我们计算协方差矩阵。

对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生数值上的变化。

Step 3: Compute the eigenvectors and eigenvalues of the covariance matrix to identify the principal components

求协方差的特征值和特征向量

主成分是由初始变量的线性组合或混合构成的新变量。主成分之间互不相关。由于主成分是由初始变量的线性组合构成的,所以它们的可解释性较差,也没有任何实际意义。主成分表示解释最大方差的数据方向,也就是说,表示捕捉数据大部分信息的线。方差和信息之间的关系是,一条直线上的方差越大,数据点在这条直线上的离散度越大,这条直线上的离散度越大,信息就越多。简单地说,只要把主成分看作是提供最佳角度来观察和评估数据的新轴,这样观测结果之间的差异就会更明显。

每个特征向量都有一个特征值。它们的数量等于数据的维数。例如,对于一个三维数据集,有3个变量,因此有3个特征向量和3个对应的特征值。协方差矩阵的特征向量实际上是有最多方差(最多信息)的轴的方向,我们称之为主分量。特征值只是特征向量的系数,它给出了各主成分的方差。通过按特征值的顺序排列你的特征向量,从高到低,你得到了有意义的主成分的顺序。有了主成分后,为了计算各成分所占方差(信息)的百分比,我们用各成分的特征值除以特征值之和。我们根据各成分所占方差(信息)的百分比选择或者丢弃一部分特征向量。

Last step : Recast the data along the principal components axes

将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,standard 的样本矩阵为m*n,协方差矩阵是n*n,选取的k个特征向量组成的矩阵为n*k。那么投影后的数据FinalData为[(n*k)的转置] * [(m*n)的转置] = k*m.。k 个主成分,m个样本。

3.独立成分分析(ICA)是一种主元分解的方法。 

 

其基本思想是从一组混合的观测信号中分离出独立信号。比如在一个大房间里,很多人同时在说话,样本是这个房间里各个位置的一段录音,ICA可以从这些混合的录音中分离出每个人独立的说话的声音。 ICA认为观测信号是若干个统计独立的分量的线性组合,ICA要做的是一个解混过程。

 

参考链接:

① https://blog.csdn.net/sinat_37965706/article/details/71330979

② https://blog.csdn.net/yujianmin1990/article/details/49247307

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值