维数诅咒和过拟合

最新推荐文章于 2022-07-08 02:41:08 发布

balabalahoo

最新推荐文章于 2022-07-08 02:41:08 发布

阅读量298

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_46268055/article/details/107485111

版权

笔记专栏收录该内容

46 篇文章 18 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

维数诅咒导致分类器性能下降，尤其是当特征数量超过训练数据所能支持的程度。过拟合不仅发生在高维空间，也与参数估计过多有关。朴素贝叶斯和线性分类器因内在表达能力有限，可容忍更多特征。以高斯密度函数为例，参数数量随维度指数增长，加剧了维数问题。避免过拟合和维数诅咒的关键在于合理选择特征数量和分类器类型。

摘要由CSDN通过智能技术生成

维数诅咒：
如何避免维数诅咒？
当问题的维数变得比较大时，分类器的性能降低。接下来的问题是“太大“指的是多大，如何避免过拟合。遗憾的是没有固定的规则来确定分类中应该有多少特征。事实上，这取决于可用训练数据的数量，决策边界的复杂性以及所使用分类器的类型。
所需训练实例的数目与所用的维数呈指数增长。
如果一个分类器泛化比较容易（例如朴素贝叶斯，线性分类器），那么所用特征的数量可以更高，因为该分类器本身的表现力不够。

过拟合既在高度维空间中估计相对少的参数时发生，也在低维空间中估计很多参数时发生。
作为一个例子，考虑一个高斯密度函数，它的均值和协方差矩阵需要参数化。比方说，我们在三维空间进行操作，这样的话协方差矩阵是一个3×3的对称矩阵，它由6个独特的元素组成（3个方差在对角线上，3个协方差）。连同分布的三维平均，这意味着我们需要估计基于训练数据的9个参数，以获得代表我们数据似然的高斯密度。在一维情况下，只有2个参数需要估计（均值和方差），而在二维的情况下需要5个参数（2D均值，两个方差和一个协方差）。我们再次看到，要估计的参数数量增长量是维数的数目平方。

balabalahoo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
维数诅咒和过拟合

维数诅咒：如何避免维数诅咒？当问题的维数变得比较大时，分类器的性能降低。接下来的问题是“太大“指的是多大，如何避免过拟合。遗憾的是没有固定的规则来确定分类中应该有多少特征。事实上，这取决于可用训练数据的数量，决策边界的复杂性以及所使用分类器的类型。所需训练实例的数目与所用的维数呈指数增长。如果一个分类器泛化比较容易（例如朴素贝叶斯，线性分类器），那么所用特征的数量可以更高，因为该分类器本身的表现力不够。过拟合既在高度维空间中估计相对少的参数时发生，也在低维空间中估计很多参数时发生。作为一个例子，
复制链接

扫一扫