《特征工程三部曲》之三 维度压缩

1  PCA: 更够保持对方差贡献最大的特征。

通过协方差矩阵的特征值分解能给得到数据的主成分,以二维特征为例,两个特征之间可能存在线性关系(例如运动的时速和秒速度),这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系,并去除。因此PCA本质是一种去相关算法。

协方差:度量两个变量的变动的同步程度,也就是度量两个变量的线性相关性,协方差为0代表线性无关。方差是协方差中两个变量相同的时候。

1  最近重构性: 样本到这个超平面的距离都足够近

2  最大可分性: 样本点到这个超平面的投影都能尽可能的分开

2 SVD(奇异值分解)

矩阵分解方法:

左奇异向量用于压缩行,右奇异向量压缩列,压缩方法均是取奇异值较大的左奇异向量和右奇异向量与原数据C相乘。

PCA 是从特征方向去降维,SVD是从特征和实例两个方向降维。

3  LDA 算法 :线性判别式,考虑label,降维后的数据点经可能容易地被区分。

基于线性模型进行特征属性合并的操作,有监督的降维,在sklearn 中的本质是SVD分解的左奇异矩阵乘以原来的矩阵,达到降维实例的目的。

总结: PCA 映射是将一种高维数据合并到低维的过程,样本更具有更大的发散性,LDA考虑了样本的标注,使得不同类别之间的距离最大,可以用于降维和分类。

一般情况下,有类别信息的,可以采用LDA

没有类别信息的,可以用PCA。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值