李宏毅深度学习笔记1-3where doea the error come from

1、来源:bias(偏差)和variance(方差)

解释:真正的数值像是靶心,而模型预测则是打靶,error(误差)是每个模型(不同的训练集训练出来的模型)的预测值与实际值的差距,bias则是所有的发射(模型)瞄准的位置(所有预测值的期望)与靶心的差距,而variance则是瞄准位置与各个发射实际落靶点的差距(预测值相对于期望的方差)。因此我们期待我们的模型没有bias,而variance尽可能小,这样error才会很小
一般来说简单的模型bias更大,但variance更小,复杂的模型反之,实际上bias很大模型就是欠拟合(Underfitting)的,variance很大模型就是过拟合(Overfitting)的

2、如何判断模型的bias和variance的大小

如果模型无法拟合训练数据那么可能bias很大,则预测模型可能没有包含实际的模型,此时要重新设计模型,考虑更多的因素,让模型更复杂
如果模型与训练数据拟合程度很高,但是预测值与实际值的差别很大,那么可能variance很大,此时要增加训练集规模(可能会很难,但不会影响bias,可以用已有的数据生成更多的数据)或者将模型正则化(改变了模型的范围,可能会伤害bias)

3、应该怎么做

将训练数据分成两组,一组用来训练,一组用来测试模型,选好之后可以用全部训练数据再来训练模型,这样的模型对于测试数据(public testing set)的表现更贴合实际的测试数据表现(实际的测试数据private testing set是没有的)。原则上是,如果少去根据public testing set上的error调整model的话,那你在private testing set上面得到的error往往是比较接近public testing set上的error的

4、k-折交叉验证(k-fold cross Validation)

在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练,共计k次。再取所有的err的平均值最小的,最后可以用整个训练数据集训练这个模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值