特征提取——主成分分析(PCA)

特征提取——主成分分析(PCA)

2018/5/23

引言:特征提取是机器学习中很常用数据处理方式,一般都出现在实际搭建模型之前,以达到特征空间维度的变化(常见是降维操作)。特征提取是通过适当变换把已有样本的D个特征转换 d(<D) d ( < D ) 个新特征。这样做的主要目的有:

  • 降低特征空间的维度,使后续的分类器设计在计算上更容易实现;
  • 消除原有特征之间的相关度,减少数据信息的冗余,更有利于分类。

前面提到特征提取就是通过适当变换将特征从现有的特征空间转换到新的空间。所以特征提取的关键任务在于寻找适当变换,最常采用的变换方法是线性变换,即若 xϵRD x ϵ R D D D 为原始特征,变换后的 d 维新特征 ξϵRd ξ ϵ R d 为:

ξ=WTx ξ = W T x (这是一个线性变换) (1)

其中, W W D × d 维矩阵,称作变换阵。所谓特征提取,就是寻找一个合适的矩阵 W W ,使得原有样本经过式(1)的变换后,能够保留尽可能多的原有信息。如果用类别可分性判据来作为衡量新特征的准则,这一原则可以用一个表达式来表示:

l W = a r g m a x J ( W T x ) { W } , 其中 J(WTx) J ( W T x ) 即为基于类内类间距离的可分性判据。

本次我们先介绍喜闻乐见的主成分分析法(PCA)。

主成分分析法(PCA)

PCA是非常常用的数据降维方法。它的基本思想是从一组特征中计算出一组按照重要性的大小从大到小依次排列的新特征,它们是原有特征的线性组合,并且新特征之间不相关, 我们计算出原有特征在新特征上的映射值即为新的降维后的样本。也就是说PCA的目标是用一组正交向量来对原特征进行变换得到新特征,新特征是原有特征的线性组合。

数据说明,样本集为已经经过中心化后的数据, X={ x1,x2,...,xn} X = { x 1 , x 2 , . . . , x n } ,其中 xi x i 为p维列向量,共有n个样本,满足 ni=1xi=0 ∑ i = 1 n x i = 0

用矩阵 A A 来表示一组正交列向量,并且为了归一化,令 a i T a i = 1

同时有 aTiaj=0,ij a i T a j = 0 , i ≠ j

若原样本有 p p 维特征,即原向量 x i = { x 1 i , x 2 i , . . . , x p i } ,则经过变换后得到新的样本向量 ξi=ATxi ξ i = A T x i

展开即为 ξij=aTjxi=pt=1ajtxit ξ j i = a j T x i = ∑ t = 1 p a j t x t i 。 (2)

一. 推导矩阵 A A 的计算方法,即各向量 a i 的计算方法。

1. 计算 a1 a 1

我们先考虑第一个新特征上的值 ξi1=pj=1a1jxij ξ 1 i = ∑ j = 1 p a 1 j x j i ,这个式子表示的是将原向量 xi x i 投影到向量 a1=[a11,a12,...,a1p] a 1 = [ a 11 , a 12 , . . . , a 1 p ] 上得到值

  • 11
    点赞
  • 147
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
主成分分析(Principal Component Analysis,PCA)是一种常用的特征提取方法。它通过线性变换将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,它们是原始数据中最能区分样本之间差异的方向。 PCA的基本思想是找到一个最佳的投影方向,使得数据在该方向上的投影具有最大的方差,然后找到一个与第一个方向正交的第二个方向,使得数据在该方向上的投影具有次大的方差,依此类推。通过选择前k个主成分,就可以将原始数据降维到k维空间中。 PCA具有以下几个应用和优点: 1. 数据降维:通过PCA可以将高维数据降低到低维空间,减少特征数量,同时保留了原始数据中最重要的信息。 2. 去除冗余信息:PCA可以去除原始数据中的冗余信息,提取出最相关的特征。 3. 数据可视化:PCA可以将高维数据映射到二维或三维空间中,便于可视化观察和分析。 4. 数据预处理:PCA可以在机器学习任务前对数据进行预处理,减少噪声和冗余信息对模型的影响。 5. 特征选择:基于PCA的方差解释率,可以选择保留多少个主成分,从而选择最具代表性的特征。 需要注意的是,PCA是一种线性降维方法,对于非线性的数据分布效果可能不好。在这种情况下,可以考虑使用非线性降维方法,如核主成分分析(Kernel PCA)等。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值