特征选择与数据降维(特征提取)

降维

降维的方法:

  1. 结合专业知识剔除或合并类别
  2. 通过数据概要来发现变量间的信息重叠(并剔除或合并类别)
  3. 对数据进行转换,例如将分类型变量转换为数值型变量
  4. 使用如主成分分析(PCA)这样的自动降维技术来创建一系列新的变量(原变量的加权平均)。这些变量互不相关,并且其中很小的一个子集就包含了原始数据中很大一部分信息(因此我们可以只使用新变量集的一个子集来实现降维)。

可以利用一些数据挖掘的方法:如回归模型、分类和回归树等,这些方法可以用于剔除冗余变量,以及合并分类型变量中的相似类别。

特征选择与数据降维(特征提取)区别与联系

和feature selection不同之处在于feature extraction是,但是feature selection则只是在原有特征上进行筛选。

  1. 特征提取是在原有特征基础之上去创造凝练出一些新的特征出来,好比从杂乱无章的世界中,去到更高层的世界去俯瞰原始世界,你会发现很多杂乱无章的物理现象中背后暗含的道理是想通的,这时候你想用一个更加普世的观点和理论去解释原先的理论,这个是特征提取要做的事情。

    Feature extraction有多种方法,包括PCA,LDA,LSA等等,相关算法则更多,pLSA,LDA,ICA,FA,UV-Decomposition,LFM,SVD等等。这里面有一个共同的算法,那就是鼎鼎大名的SVD。

  2. 而你仍呆在原始世界中,只是想对现有的“取其精华,去其糟粕”,这个是所谓特征选择。只是对现有进行筛选。

  3. 特征提取和特征选择统称为降维。(Dimension Reduction)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值