泛滥成灾的特征维度
维度灾难
维数灾难(Curse of Dimensionality,也可以直接翻译为“维度诅咒”)是一种在分析或组织高维(通常是几百维或者更高维度)数据时会遇到的现象。既然叫灾难或者诅咒,可见不是好现象。
这个说法,最早是由理查德·贝尔曼(Richard E. Bellman)——美国应用数学家,同时也是动态规划算法的创始人——提出来的。
他是在思考动态优化的过程中发现了这件事:当数据维度增加时,由于向量空间体积呈指数级增加,会遇到许多在低维数据中很难出现的问题。比如:
$100$个平均分布的点能把一个一维的单位区间均分为$100$份,也就是说$100$个均匀分布的采样点就可以在一维的单位空间里形成精度为$0.01$的采样。
而要在二维的单位空间里形成同样密度的采样,就需要$10000$个点;三维需要$1000000$个点;十维空间则需要$10^{20}$个采样点……
那要是一千维呢?所需采样数根本就是天文数字,现实当中,我们怎么可能去找那么多样本数据?
以上是当年理查德·贝尔曼举的例子。
数据稀疏
其实这个问题反过来想更直接。
在现实生活中&