Datawhale X 李宏毅苹果书 AI夏令营task3笔记

2.1 实践方法论

2.1.1 模型偏差

模型偏差出现的原因:如果模型过于简单,将一个有未知参数的函数代θ1 得到一个函数fθ1(x) ,同理可得到另一个函数 fθ2(x),把所有的函数集合起来得到一个函数的集合。如果该函数的集合太小,则让损失变低的函数可能不在模型可以描述的范围内。

优化方法:(1)增加输入的特征来扩大模型的灵活性。

                  (2)通过深度学习来增加模型的灵活性。

在优化过程中,除了模型有偏差的问题以以外,还可能遇到优化做的不好的可能。

2.1.2 优化问题

1.分清是模型偏差(模型不够大)还是优化问题(模型够大了)。

判断方法:通过比较不同的模型来判断模型现在到底够不够大。当较高的层数的损失比较低的层数的损失还要高时,就可能代表它的优化没做好。

       但如果训练数据上面的损失小,测试数据上的损失大,可能是真的过拟合。在测试上的结果不好,不一定是过拟合。要把训练数据损失记下来,先确定优化没有问题,模型够大了。接下来才看看是不是测试的问题,如果是训练损失小,测试损失大,这个有可能是过拟合。

2.1.3 过拟合

过拟合出现的原因:在训练集中可能会出现一些毫无意义,但是在训练数据上的损失是0的函数。只要有x出现在训练集里面,就有对应的 y 当做输出。如果 x 没有出现在训练集里面,就输出一个随机的值。这样的函数应用到测试数据上面,它的损失会变得很大,因为它其实什么都没有预测。这样下来过拟合的现象便出现了。

解决过拟和的问题有两个方向,第一个是增加训练集(数据增强),通过增加“点”的数量来限制图形的形状。但是注意要根据对数据的特性以及要处理的问题的理解,来选择合适的数据增强的方式。

第二个方法是给模型一些限制,让模型不要有过大的灵活性。减少给模型的参数、用较少的特征和数据去描述模型等都是可行的方法。最好选一个不是太复杂的、也不是太简单的中庸的模型,这样刚刚好可以使训练集、测试的损失最低。

2.1.4 交叉验证

     在通常比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集,一部分是验证集。之后在训练集上训练出来的模型会使用验证集来衡量它们的分数,根据验证集上面的分数去挑选结果,再把这个结果上传到 Kaggle 上面得到公开分数。但由于上传次数的限制或循环太多次出现过拟合等问题,“传统”方法的到的模型往往效果不佳。

交叉验证的方法:将训练集拆成数个小的训练集的验证集,在这些训练跟验证的数据集上面,通通跑过一次,在把所有的结果都平均起来,最后看看对于原模型而言谁的结果最好。

图2.5 交叉训练的表述

2.2.5 不匹配

不匹配的表述:如图,预测的曲线与实际曲线出现了极大的预测差距,这种错误方式就被称为不匹配。

这种问题要怎么解决,匹不匹配没有固定的方法,只能看对数据本身的理解了,我们可能要对训练集跟测试集的产生方式有一些理解,才能判断它是不是遇到了不匹配的情况。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值