[李宏毅机器学习课程笔记] 2.1 basic_concept

这一部分主要是将error的来源和过拟合和欠拟合等概念联系起来

1. 回归的结果会产生错误

错误来源主要有两方面 bias and variance 偏移和方差,过拟合可以简单的理解为一味提高模型的复杂性但是并不会带来在测试集上的良好表现。

bias:样本均值并不等于变量的期望,尽管样本均值的期望等于变量的期望

样本的方差随着样本量的增大而逐渐减小,具体式子为 Var[m] = \frac{\sigma ^{2}}{N}

证明如下:

最好的效果是low bias and low variance,可是世间安得两全法,只能找到一个平衡点

2. f^{*}上的bias 和variance

bias和variance表现在f^{*}上面,就是平均曲线描述的准确性和曲线的分散程度

在曲线的复杂程度较小的时候,error主要来自于bias,处于一种underfitting的状态;曲线复杂程度过大的时候,error主要来自于variance,处于overfitting 的状态,综合考虑bias和variance,存在一个合适的极小值。

3. bias过大和variance过大的表现

当模型在训练集上表现不好的时候,就是bias比较大,表现为欠拟合;如果模型在训练集上表现好,但是在测试集上表现不好,就是variance比较大,表现为过拟合。

4. 处理方法

bias,欠拟合的处理方法:加入更多的输入特征,更加复杂的模型。

variance,过拟合的处理方法:加大数据量(从概论统计的角度就是样本量越大,variance越小,effective but not always practical);regularization 减小单个因素的影响。两种方法都可以理解为缩小单个数据的影响。

找到合适的model达到bias和variance的平衡

如何找到一个比较真实的error呢? N折交叉验证是其中一种方法,采用数据的不同部分作为训练和验证集,最后的结果取平均。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值