The Curse of Dimensionality
在大数据时代,大量的数据,例如图片,音频等数据都是高维的。一个32*32的图像,可以看做是一个维度为1024(32*32)的实例。从某种程度来说,维数的增多有利于进行分类,这意味着增加了更多的信息。但是当维度增大到一定的程度,就会产生所谓的维度诅咒,即在深度学习领域,随着数据特征的维度增多,训练所需要的数据呈指数型增加的现象。随着维度的增加,有限的训练数据变得稀疏,数据之间的相似性降低,使得寻找到的分类超平面往往不是最优超平面。这样找到的超平面,映射在低维上,往往会学习到数据的特殊点,即产生过拟合问题(overfitting),导致在测试集上的效果变差。图1显示了随着特征数,及特征维度的增加,分类效果的好坏。
维度诅咒的另一个影响在于,稀疏的数据在搜索空间上并非均匀分布。随着维度的增加,大比例的数据将会位于以训练数据均值为圆心的单位圆以外,增大了分类的难度。详细参照:https://blog.csdn.net/u010182633/article/details/45895493
事实上,SVM及神经网络都可以看做是寻找一个合适的特征维度的过程。当数据的维度过小的时候,数据分布过于稠