python数据降维的意义_在大数据时代,如何理解「降维」这个概念,又有哪些方法来实现数据的「降维」?...

数据分析中常用的基本降维思路及方法

数据属性(维)归约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,从而提高数据挖掘的效率,降低计算成本。

数据维归约的目标是寻找最小的属性子集并确保新数据子集的概率分布尽可能接近数据集的概率分布。

1、降维的意义降低无效、错误数据对建模的影响,提高建模的准确性

少量切具有代表性的数据将大幅缩减挖掘所需的时间

降低存储数据的成本

2、需要降维的情况

大多数情况下,面临高维数据,就要降维处理:维度数量。 降维基本前提是高维。

建模输出是否必须保留原始维度。如果需要最终建模输出是能够分析、解释和应用,则只能通过特征筛选或聚类等方式降维。

对模型对计算效率和建模时效性有要求。

是否需要保留完整的数据特征。

3、基于特征选择的降维

根据一定的规则和经验,直接选取原有维度的一部分参与后续的计算和建模过程,用选择的维度代替所有维度。优势是既能满足后续数据处理和建模要求,又能保留维度原本的业务含义,以便业务理解和应用。

四种思路「经验法」: 根据业务专家或数据专家的以往经验、实际数据情况、业务理解程度等进行综合考虑。

「测算法」: 通过不断测试多种维度选择参与计算,通过结果来反复验证和调整,并最终找到最佳特征方案。

「基于统计分析方法」: 通过相关分析不同维度间的线性关系,在相关性高的维度中进行人工去除或筛选方差过滤:classs sklearn.feature_selection.VarianceThreshold(threshold=0.0) .

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值