第三次打卡:Datawhale X 李宏毅苹果书 AI夏令营

哈哈 今天还没来得及看完呢 就到了打卡时间了

赶紧赶紧...

不知不觉到了 第 2 章 实践方法论

2.1 模型偏差 - 可能会影响模型训练

2.2 优化问题 - 一般只会用到梯度下降进行优化,but 这种优化的方法很多的问题

训练数据的损失不够低的时候,到底是模型偏差,还是优化的问题呢?怎么判断?

1)一个建议判断的方法,通过比较不同的模型来判断模型现在到底够不够大。

2)书里的具体建议是看到一个从来没有做过的问题,可以先跑一些比较小的、比较浅的网络,或甚至用一些非深度学习的方法,比如线性模型、支持向量机(Support Vector Machine,SVM)。

3) 接下来还缺一个深的模型,如果深的模型跟浅的模型比起来,深的模型明明灵活性比较大,但损失却没有办法比浅的模型压得更低代表说优化有问题,梯度下降不给力,因此要有一些其它的方法来更好地进行优化。

4)如果训练损失大,可以先判断是模型偏差还是优化。如果是模型偏差,就把模型变大。假设经过努力可以让训练数据的损失变小,接下来可以来看测试数据损失;如果测试数据损失也小,比这个较强的基线模型还要小,就结束了。

5) 但如果训练数据上面的损失小,测试数据上的损失大,可能是真的过拟合。在测试上的结果不好,不一定是过拟合。要把训练数据损失记下来,先确定优化没有问题,模型够大了。接下来才看看是不是测试的问题,如果是训练损失小,测试损失大,这个有可能是过拟合。

2.3 过拟合 == 训练集上的结果好,但是测试集上的损失很大。

解决方法:1)增加训练集=数据增强(data augmentation);2)给模型一些限制,让模型不要有过大的灵活性。 具体方法包括:

 A. 给模型比较少的参数.  如果是深度学习的话,就给它比较少的神经元的数量,本来每层一千个神经元,改成一百个神经元之类的,或者让模型共用参数,可以让一些参数有一样的数值. 卷积神经网络(Convolutional Neural Network,CNN)是一个比较有限制的架构。

B.用比较少的特征,本来给 3 天的数据,改成用给两天的数据,其实结果就好了一些。

C.还有别的方法,比如早停(early stopping)、正则化(regularization)和丢弃法(dropoutmethod)。

2.4 交叉验证

比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set),一部分是验证集(validation set)

2.5 不匹配(mismatch)

不匹配跟过拟合不同。不匹配的训练集和测试集的分布不同,训练集再增加并无帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值