第一章 机器学习基础笔记(三)#Datawhale X 李宏毅苹果书 AI夏令营

实践方法论

        实践方法论在笔记(一)机器学习示例与笔记(三)机器学习基本框架基础上进行过更细致的讲解,整体涉及数学公式含量陡然下降,随着而来的是大量的文字说明。

模型偏差

        如同字面意,偏差可能会影响模型训练。举个例子,假设模型过于简单,一个有未知参数的函数代\theta_{1}得到一个函数fθ1(x),同理可得到另一个函数fθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内。在这种情况下,就算找出了一个\theta ^{*},虽然它是这些蓝色的函数里面最好的一个,但损失还是不够低。这种情况就像是要在大海里面捞针(一个损失低的函数),结果自己跑到湖里。     

        这个时候重新设计一个模型,给模型更大的灵活性。以笔记(一)中预测人均寿命为例,可以增加输入的特征,本来输入的特征只有前年的信息,假设要明年的人均寿命,用前10年的信息,模型的灵活性就比较大了。但是并不是训练的时候,损失大就代表一定是模型偏差,可能会遇到另外一个问题:优化做得不好。

优化问题 

        梯度下降的方法,如之前所说,有时会出现卡在局部最小值的情况。也就是确实找到了\theta ^{*},但\theta ^{*}的损失还是太高,存在更好的函数。就像是大海捞针,针确实在海里,但是无法把针捞起来。训练数据的损失不够低的时候,到底是模型偏差,还是优化的问题呢。找不到一个损失低的函数,到底是因为模型的灵活性不够,海里面没有针。还是模型的灵活性已经够了,只是优化梯度下降不给力,它没办法把针捞出来。

过拟合问题

        过拟合是比较常见的问题,一般解决方法分两种:第一种是增加测试集数量,把函数基线卡得更加准确。第二种是减少特征的数量。

交叉验证

        比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set),一部分是验证集(validation set)。比如90%的数据作为训练集,有10%的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数,根据验证集上面的分数去挑选结果,再把这个结果上传到Kaggle上面得到的公开分数。在挑分数的时候,是用验证集来挑模型,所以公开测试集分数就可以反映私人测试集的分数。但假设这个循环做太多次,根据公开测试集上的结果调整模型太多次,就又有可能在公开测试集上面过拟合,在私人测试集上面得到差的结果。

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值