Bias Variance Tradeoff

Bias Variance Tradeoff

  统计学习中有一个重要概念叫做residual sum-of-squares

  RSS看起来是一个非常合理的统计模型优化目标。但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是k-NN就是一个完美的模型了呢,显然不是k-NN有很多明显的问题,比如对训练数据量的要求很大,很容易陷入维度灾难中。

  k-NN的例子说明仅仅优化RSS是不充分的,因为针对特定训练集合拟合很好的model,并不能说明这个model的泛化能力好,而泛化能力恰恰又是机器学习模型的最重要的要求。真正能说明问题的不是RSS,因为它只是一个特定训练集合,而是在多个训练结合统计得出的RSS的期望,MSE(mean squared error),而MSE又可以拆分成bias和variance两部分:

  式子的推导很显然,只要填一项减一项,展开式子,多余的那一项等于0

  从上面的式子可以看出,低bias的model在训练集合上更加准确,低variance的model在不同的训练集合上性能更加稳定。

  Bias 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;独立于训练样本的误差,刻画了匹配的准确性和质量:一个高的bias意味着一个坏的匹。

  Variance 则度量了在面对同样规模的不同训练集时,学习算法的估计结果发生变动的程度。相关于观测样本的误差,刻画了一个学习算法的精确性和特定性:一个高的variance意味着一个弱的匹配。

  举两个极端的例子:

  1. 记住训练集合上所有的点的label,这样的系统低bias,高variance
  2. 无论输入是什么,总是预测一个相同的,这样的系统高bias,低variance。

  因此在一个model的选择上需要进行偏倚和方差的权衡。

  显然复杂的模型能更好的拟合训练集合能更好的拟合训练集合上的点,但是同时高复杂度的模型泛化能力差,造成了高方差。横坐标的右侧是overfitting的情况,而左侧是underfitting的情况。

  可见如果目标函数只是优化RSS那么在有限训练集合的情况下,很难训练出一个效果好的模型,想一下在分类中表现比较好的SVM基于maxiumu margin的思想,而maxent考虑的是熵的最大,均是增加泛化能力,降低模型复杂度的手段。

  一个较好的选择是改进优化函数,在优化RSS的同时,惩罚复杂模型

  参考链接:

  http://goo.gl/mZwum

此条目由  lixiang 发表在  Research 分类目录,并贴了   标签。将 固定链接加入收藏夹。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 偏差方差权衡(bias variance tradeoff)是机器学习中一个重要的概念。它指的是在模型训练过程中,模型的偏差和方差之间的平衡问题。偏差是指模型的预测结果与真实结果之间的差异,方差是指模型在不同数据集上的预测结果的差异。当模型的偏差较大时,说明模型过于简单,无法很好地拟合数据,导致欠拟合;当模型的方差较大时,说明模型过于复杂,对训练数据过度拟合,导致泛化能力差。因此,我们需要在偏差和方差之间找到一个平衡点,以获得更好的模型性能。 ### 回答2: Bias-variance tradeoff是机器学习中一个重要的概念,是优化算法性能的关键。在训练模型时,我们可以采用不同的算法和技术,目的是减少模型的误差,提高预测的准确性。但是,在实际工作中,我们经常会遇到biasvariance这两个问题。 Bias是指模型预测的结果与实际值之间的平均差异。这种差异通常是由模型的错误假设造成的,即模型对问题的理解不够深入或者模型结构不够复杂所导致的。如果模型偏差很高,说明模型的拟合程度不够,对新数据的预测准确性也很低。 Variance是指模型预测结果之间的差异,即同一模型对同一数据的预测结果可能会有很大的偏差。通常,这种偏差是由模型的复杂度和训练数据的数量等方面造成的。如果模型方差很高,说明模型的泛化能力不足,即对于未见过的数据,模型也很难做出准确的预测。 因此,我们需要在biasvariance之间进行权衡,并取得一个平衡点的状态。在进行模型选择时,应该根据问题的特点和数据的特征,选择适当的模型。如果数据量少,模型应该越简单越好;如果数据足够多,模型可以更复杂,以提升模型的预测准确度。 要降低bias,可以增加模型复杂度、添加新的特征、增加训练数据的量等方法来提高模型的拟合能力;要降低variance,可以采用正则化、降低模型复杂度、增加训练数据的噪音、数据扩充等方法来减少数据的波动性,从而提高模型的稳定性。 在实际工作中,bias-variance tradeoff是一个很复杂的问题,需要多方面进行考虑和分析。通过对此问题的了解,可以更好地理解机器学习算法的优化过程,提高模型的预测准确率和稳定性。 ### 回答3: 在机器学习中,bias-variance tradeoff 是一个重要的概念。Bias是指模型在处理数据时的偏差,也就是说,模型对数据做出的预测结果与真实情况相差多少。Variance则是指模型在处理不同数据集时的波动,也就是说,不同的数据集会对模型的预测结果产生多大程度的影响。 通常来说,我们希望我们的模型能够既有较低的bias,也有较低的variance,但是这是不可能的。在机器学习中,有一个经典的矛盾:如果我们的模型太简单,就容易导致高偏差(bias)的问题,也就是说,模型的表达能力不够强,无法对数据进行更为精确的拟合。相反,如果我们的模型太复杂,就容易导致高方差(variance)的问题,也就是说,模型对于数据的变动非常敏感,无法准确地预测结果。这时候我们就需要在两者之处取得平衡。较低的biasvariance可以带来较好的模型性能。 为了解决bias-variance tradeoff,我们可以采用以下方法: 1. 增加训练数据量:增加数据量可以减少模型的variance,因为有更多的数据可以让模型更准确地预测,从而减少对训练数据的过多适应; 2. 使用合适的模型:根据问题的不同,选择合适的模型可以有效地平衡bias-variance tradeoff,具有较好的鲁棒性; 3. 使用正则化:通过加入惩罚项,可以让模型更加偏向于简单的解决方法,从而减少variance,降低模型的过拟合问题; 4. Ensemble方法:使用ensemble方法将多个模型的结果结合起来,可以帮助我们在减少预测误差的同时保持较低的biasvariance水平。 在机器学习的开发中,对bias-variance tradeoff 的理解非常重要,通过正确的思考来确保选择合适的模型及参数来最小化biasvariance的影响,从而得到具有高性能的模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值