什么是主维度分析(PCA)

什么是降维

训练模型时,如果数据集的特征数过多(比如文本分类时,二元词组有上万个),那么训练起来会很慢。而且可能会因为数据量不够大,但是维度过高,使得数据分布非常的稀疏,降低训练效果。

降维能够有效的避免上述缺点。理想的降维是将和训练目的比较不相关的特征排除,仅留下有用的那部分,从而提高训练效果。

但是降维过程中,维数的下降不可避免地会导致信息的丢失。因为对数据降维后,模型在预测时需要恢复到原来的样子。

如何有效降低维数,同时尽量减少信息丢失,就是降维的目标。

在这里插入图片描述在这里插入图片描述在这里插入图片描述
【上图展示出:PCA中,降维并试图还原时,信息的丢失。三幅图按序分别代表:原始维度中的数据、分析出的主维度中的数据、降维至一个主维度后恢复至原维度的数据】

什么是主维度分析(PCA)

PCA(Principal component analysis,主维度分析)是一种维度提取方法,这需要和维度选择方法区分开。

选择,意味着从原有维度(特征)中选择一部分保留,而忽略其他维度(特征);而提取,可以随意构建新的维度,不限于已有的维度,然而新选出的维度就不一定具有特殊含义了,因而比起特征选择来说,不是很便于理解。

PCA提取维度的思路是,让新构建的维度上,数据的方差最大化。正如PCA的名字所示,主维度分析,是要通过分析数据,找出最主要的那些维度。找出的这些主要维度数量比原数据的维度小很多,从而达到降维的目的。

PCA是一种传统的适用性较强的方法。该方法首次发表于一个世纪前的1901年,目前已经有很多表现更加优秀的方法。此外,PCA是自编码器的一种特例。这也是为什么在深度学习中,通常没有机器学习中这样明显的一步特征提取的步骤。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值