PCA(Principal Component Analysis)主成分分析

        今天给大家说说主成分分析这个玩意~那么,首先来说说它是干嘛用的吧,它是就来做特征选择(Feature Selection),或者说降维(Dimension Reduction)的。其实特征选择和降维是有联系的,因为特征选择的结果是把那些有用的特征给选出来,冗余的没用的特征给去掉,那么这样之后特征维数自然而然就降低了。那为什么要做特征选择呢?举个具体例子,假设有一大堆网页,然后想对这些网页做聚类(Clustering),所用特征是网页中文本分词后的各词项的TD-IDF值,那么这个特征有多少维?维数等于分词后能分出的不同的词项的个数,那么这个个数能有多大呢?在我实际的研究工作中所碰到的词项数大约是500W的级别,那么就是说,如果采用这些词项做为特征中的词项,那么特征空间就是500W维的,这是个巨大的数字,会给计算带来灾难,这就是所谓的维灾(Dimension Curse),因此有必要通过特征选择来降维。除此之外,还有别的原因需要做特征选择,比如说现在有一堆用户的数据,想对用户进行聚类,但是现在用户特征很多,其中有很多特征意义不大,如果聚类的时候把这些特征也考虑进去,会干扰聚类的效果,但是特征太多,我们人眼又很难看出什么特征有用,什么特征没用。

        那么PCA是怎么选择特征的呢?它是怎么定义所谓的“有用的特征”?它的思想是这样的:它把高维特征通过线性变换,变换到低维空间中,使得在这个低维空间中,特征的方差尽可能地大。这时低维空间中的特征就是被选择出来的特征,就是所谓的主成分,而其它次要的成分就被剔除了。为什么希望方差大呢?因为方差大,就表示这个维上的数据所包含的信息比较丰富。举个例子,比如现在有10个人的数据,每条数据有两个维:出生地,性别,10个人的出生地各不相同,5男5女。从感觉上看,哪一维所包含的信息量大一些?是不是出生地呢?如果我一说出生地,是不是马上就可以找到那个人了呢?因此出生地各不相同嘛,而性别呢?因此性别只有2种,因此会有大量重复的值,也就是很多人的值都是一样的,这个属性对于人的刻画效果不好,比如你找一个性别是男的人,可以找到5个,这5个人从性

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值