【李宏毅2022深度学习】笔记一:如果想获得更好的function来达到好的训练效果,你应该尝试从哪几个方面进行改进?

作者最近开始学习深度学习相关知识,写下这篇文章便于以后自己及时查阅,也希望能帮到有需要的人。以下图片内容均来自李宏毅老师的2022机器学习课程,相关链接会放到文章末尾,如有侵权联系作者进行删除。好,我们正式开始~

一上来呢,老师列举了四大可能原因。并反复强调,一定要从训练集(training data)开始检查起

训练集上的问题:一、模型过于简单 二、优化器选择

测试集上的问题: 三、 ①过拟合②无用信息干扰 四、没分出来一部分数据当测试集

 一、模型过于简单(model bias)

最优在橘点位置,但你给这个模型的公式集合都在蓝色范围内,好比你想大海捞针,但是海里没有针。解决办法:重新设计model,可以尝试输入更多的feature,以增大模型的弹性。

二、优化器选择错误

在蓝色范围公式集合里面,优化器无法选择出里面最优的公式(橘色点),好比针掉到大海里,但是采用了错误的方法,导致无法捞出来。

如何区分到底是问题一还是问题二?下图给出了解答: 

1. 通过检查训练集(training data),举个例子:如果发现在20层网络上把错误已经降到很低了,而在56层的时候反倒更高了,这个时候不是因为过拟合(overfitting),也不是因为模型过于简单,而是因为优化器出问题了

2. 先跑一些比较比较简单的模型,对这些模型大概会得到什么样的loss大概有个数,如果随着模型的复杂,loss反倒变高了,肯定是优化器的问题。

三、 过拟合(overfitting)

这里需要注意,在训练集效果好,在测试集不好的才叫过拟合哦

你的模型里一些没有经过训练的地方,可能会产生一些比较离谱的曲线(图中的波峰),这时候将训练出来的模型放到测试集里的话,有的地方就会产生较大偏差,这就是所谓的过拟合。

解决办法:1. 就是我们熟知的数据增强法咯,通过剪裁图像等方法增大我们的训练集,减少离谱曲线的出现 2. 限制模型的形状

四、未分测试集

目前常规操作就是,比如90%数据当训练集而后10%数据当测试集,这就避免出现模型在公开(public)训练集上效果异常的好,但是一到prvite训练集上就很差

如何分这个训练集测试集呢,学了一个K折交叉验证法:将所有数据分成n等分,把其中的一份当作验证集,最后得出结果后平均,取平均结果最小的

以上就是全部内容啦,作者这水平就这样了,如果有表达不当理解错误的地方,也请大家多批评指正,我这接下来还有很多要学的内容,后续应该都会做成这种笔记,大家一起加油吧~

课程链接:李宏毅2022机器学习 ML 2022 Spring (ntu.edu.tw)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值