1-2 偏差,方差

偏差,方差( Bias /Variance

假设数据集:

如果给这个数据集拟合一条直线,可能得到一个逻辑回归拟合,但它并不能很好地拟合该数据, 这是高偏差( high bias)的情况, 我们称为“欠拟合(” underfitting)。

相反的如果我们拟合一个非常复杂的分类器,比如深度神经网络或含有隐藏单元的神经网络,可能就非常适用于这个数据集,但是这看起来也不是一种很好的拟合方式分类器方差较高( high variance),数据过度拟合( overfitting)。

在两者之间,可能还有一些像图中这样的,复杂程度适中,数据拟合适度的分类器,这个数据拟合看起来更加合理, 我们称之为“适度拟合”( just right) 是介于过度拟合和欠拟合中间的一类。

理解偏差和方差的两个关键数据是训练集误差( Train set error)和验证集误差( Dev set error):

假定训练集误差是 1%,验证集误差是 11%,可以看出训练集设置得非常好,而验证集设置相对较差, 我们可能过度拟合了训练集,在某种程度上,验证集并没有充分利用交叉验证集的作用, 像这种情况, 我们称之为“高方差”。

假设训练集误差是 15%,验证集误差是 16%,假设该案例中人的错误率几乎为 0%,人们浏览这些图片,分辨出是不是猫。算法并没有在训练集中得到很好训练,如果训练数据的拟合度不高,就是数据欠拟合,就可以说这种算法偏差比较高。相反,它对于验证集产生的结果却是合理的,验证集中的错误率只比训练集的多了 1%,所以这种算法偏差高,因为它甚至不能拟合训练集。

假设训练集误差是 15%,偏差相当高,但是,验证集的评估结果更糟糕,错误率达到 30%,在这种情况下,我会认为这种算法偏差高,因为它在训练集上结果不理想,而且方差也很高,这是方差偏差都很糟糕的情况。

假设训练集误差是 0.5%,验证集误差是 1%,用户看到这样的结果会很开心,偏差和方差都很低。

以上分析的假设条件:

这些分析都是基于假设预测的,假设人眼辨别的错误率接近 0%,一般来说,最优误差也被称为贝叶斯误差,所以,最优误差接近 0%。如果最优误差或贝叶斯误差非常高,比如 15%。我们再看看这个分类器(训练误差 15%,验证误差 16%), 15%的错误率对训练集来说也是非常合理的,偏差不高,方差也非常低。

以上分析的前提都是假设训练集和验证集数据来自相同分布,如果没有这些假设作为前提,分析过程更加复杂。

转载于:https://www.cnblogs.com/xiaojianliu/articles/9554929.html

学习曲线偏差方差是机器学习领域的一个概念,用于评估模型的性能。主要涉及两个关键概念:偏差(Bias)和方差(Variance)。 ### 偏差 (Bias) **定义**: 偏差指的是算法对训练数据拟合的程度。低偏差意味着模型能够很好地捕捉到数据集中的模式。如果一个模型的偏差过低,则该模型可能过于简单,无法充分描述复杂的数据关系,导致在测试数据上的表现不佳。 ### 方差 (Variance) **定义**: 方差衡量的是模型对于不同训练数据集变化的敏感程度。高方差意味着模型在面对未见过的数据时预测能力较差,因为它过度关注于训练数据的具体细节,而忽略了普遍规律。理想情况下,我们希望找到一个平衡点,即模型既不过度依赖训练数据,也不忽略其内在规律。 ### 学习曲线 学习曲线是一种可视化工具,用来观察模型在训练过程中性能的变化情况: 1. **训练误差**(Train Error)随着训练样本数量增加逐渐减少,直到接近理论最小值。 2. **验证误差**(Validation Error)先减小,达到最优模型后开始增大。这是由于模型开始过度拟合(Overfitting),学习到了训练数据中的噪声而非真正的规律。 ### 学习曲线偏差方差的关系 - **低偏差 - 高方差**:模型通常具有较高的复杂性,能够很好地拟合训练数据,但容易过拟合,对于新数据的泛化能力弱。 - **高偏差 - 低方差**:模型相对简单,不足以准确捕捉数据中的复杂结构,导致训练和验证误差较大,但在新数据上表现出较好的泛化能力。 - **最佳情况**:理想的模型应具备较低的偏差方差,既能准确地学习数据的内在规律,又能在新数据上取得良好的泛化性能。 ### 应对策略 为了优化模型的学习曲线,可以采取以下几种策略: 1. **特征选择**:减少无关特征的数量,避免模型陷入过多无意义的参数调整中。 2. **正则化**:通过添加惩罚项限制模型参数大小,减少模型复杂度,从而降低方差提高泛化能力。 3. **增加数据量**:更多的训练数据有助于模型更好地学习数据分布,减少偏差。 4. **模型集成**:如Bagging和Boosting,通过组合多个模型的结果来降低方差,提升整体性能。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值