维数诅咒和过拟合

维数诅咒导致分类器性能下降,尤其是当特征数量超过训练数据所能支持的程度。过拟合不仅发生在高维空间,也与参数估计过多有关。朴素贝叶斯和线性分类器因内在表达能力有限,可容忍更多特征。以高斯密度函数为例,参数数量随维度指数增长,加剧了维数问题。避免过拟合和维数诅咒的关键在于合理选择特征数量和分类器类型。
摘要由CSDN通过智能技术生成

维数诅咒
如何避免维数诅咒?
当问题的维数变得比较大时,分类器的性能降低。接下来的问题是“太大“指的是多大,如何避免过拟合。遗憾的是没有固定的规则来确定分类中应该有多少特征。事实上,这取决于可用训练数据的数量,决策边界的复杂性以及所使用分类器的类型。
所需训练实例的数目与所用的维数呈指数增长。
如果一个分类器泛化比较容易(例如朴素贝叶斯,线性分类器),那么所用特征的数量可以更高,因为该分类器本身的表现力不够。

过拟合既在高度维空间中估计相对少的参数时发生,也在低维空间中估计很多参数时发生。
作为一个例子,考虑一个高斯密度函数,它的均值和协方差矩阵需要参数化。比方说,我们在三维空间进行操作,这样的话协方差矩阵是一个3×3的对称矩阵,它由6个独特的元素组成(3个方差在对角线上,3个协方差)。连同分布的三维平均,这意味着我们需要估计基于训练数据的9个参数,以获得代表我们数据似然的高斯密度。在一维情况下,只有2个参数需要估计(均值和方差),而在二维的情况下需要5个参数(2D均值,两个方差和一个协方差)。我们再次看到,要估计的参数数量增长量是维数的数目平方。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

balabalahoo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值