curse of dimension维数灾难

最新推荐文章于 2025-01-09 16:05:22 发布

BlackEyes_SY

最新推荐文章于 2025-01-09 16:05:22 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/u011204487/article/details/77435473

版权

机器学习专栏收录该内容

23 篇文章

订阅专栏

维数灾难：即高维情况下的过拟合

为了获得更精准的分类，可以添加更多特征。也许特征达到一定维度，我们会得到一个堪称完美的分类器？其实不然，因为当特征达到一定维度后，再去增加维度会导致分类器的性能下降，这便是经常提到的“curse of dimension”

在得到一个性能优良的分类器前，增加特征便会有更好的分类效果，但事实却不是这样。其实在增加特征时，样本的密度会呈指数形式下降。假设1维中长度为5个单位,2维中会有25个单位 3维则会达到125个单位，样本数目是固定的，本例中为10，可见维度的增高，样本密度会呈指数级下降，通过添加特征导致的稀疏，使我们易于找到一个超平面来把样本分离，因为特征数目趋于无穷大时，样本被分类错误的概率会变得无穷小，然而当把样本由高维投影到低维时，便会有一个严重的问题。

使用太多的特征，分类器也会拟合训练数据中的噪声误差，并且不能很好的泛化到新来的测试数据，即分类器不能把对样本数据的分类能力很好的泛化到训练数据。事实上，通过添加增加特征把数据映射到高维空间来获得一个优良的分类器，仅仅相当于在低维空间中使用一个复杂的非线性分类器（kernel method）。在高维空间中，我们的分类器只拟合了稀疏的训练数据，数据可能带有误差，这样便会使分类器不能应用到一个更广阔的数据集，即缺乏泛化性。这个概念便是由维数引起的over-fitting

这种简单的分类效果会更好的泛化到训练集以外的数据，因为它并没有拟合只出现在训练数据中的例外状况。换句话说，使用较少的特征，维数灾难是可以避免的，不会过度拟合训练数据。

用一个值在（0-1）之间的特征来分类训练数据，如果我们想要覆盖特征空间的20%，我们便需要样本总数的20%,如果添加一个特征，在2维空间中，要覆盖特征空间的20%，我们便需要在每个维度上取样本的总数的45%,（0.45^2=2），同理，3维空间中需要在每个维度上取58%。