维数灾难或者维数诅咒的含义

高维空间数据样本具有稀疏性

举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要100^10=10^20 个采样点:所以,这个10维的超正方体也可以说是比单位区间大10^18倍。

另外,随着维数的增加,高维数据之间的度量会呈现出“集中”效应。

分别随机生成个均匀分布的1维、2维和3维的样本,计算任意两个样本点之间的余弦距离度量,由图中距离值的分布可以看出,维数越高,任意两个样本点之间的度量接近于均值的趋势更加明显,此现象称为度量集中效应样本点之间度量的差异性越明显,表明在该度量下样本之间的区分性也越好,因此高维数据的度量集中效应不利于数据分析。

高维数据表示的这些弊端称为维数灾难或者维数诅咒。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值