一些维度灾难的知识点

高维数据在采样、机器学习、数据挖掘等领域带来挑战。采样点需求随维度指数增长,但实际样本量有限。组合数学显示维度增加导致组合总数爆炸性增长。机器学习中,随着维度增加,预测能力下降。数据挖掘时,高维空间数据稀疏,数据组织策略效率降低。距离失去意义,卡方分布在高维下分布更广。然而,降维方法如主成分分析有效应对维数灾难,某些算法在高维数据上仍能取得良好效果。
摘要由CSDN通过智能技术生成

sampling采样

如果数据是低维的,所需的采样点相对就比较少;如果数据是高维的,所需的采样点就会指数级增加,而实现中面对高维问题时往往无法获得如此多的样本点(即使获得了也无法处理这么庞大数据量),样本少不具有代表性自然不能获得正确的结果。

combinatorics组合数学

由于每个维度上候选集合是固定的,维度增加后所有组合的总数就会指数级增加。

machine learning机器学习

在机器学习中要求有相当数量的训练数据含有一些样本组合。给定固定数量的训练样本,其预测能力随着维度的增加而减小,这就是所谓的Hughes影响Hughes现象。

data mining数据挖掘

在组织和搜索数据时有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。

距离在高维环境下失去意义

在某种意义上,几乎所有的高维空间都远离其中心,或者从另一个角度来看,高维单元空间可以说是几乎完全由超立方体的“边角”所组成的,没有“中部”。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。这对于理解卡方分布是很重要的直觉理解。

卡方分布:若N个随机变量服从标准正态分布,那么它们的平方和(注意在计算欧氏距离时就要用到各个变量的平方和)构成的新的变量服从卡方分布,N是自由度。下面是其概率密度图:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值