Datawhale X李宏毅苹果书AI夏令营第五期深度学习入门 task3

最新推荐文章于 2024-10-02 00:23:27 发布

blossom_cherry

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量438

点赞数 5

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/blossom_cherry/article/details/141868271

版权

本次任务主要是了解模型在训练集或测试集上损失较大时的几大原因，了解改进的方向

一、模型偏差

模型过于简单，未知参数函数的所有可能性的集合太小，让损失变低的函数不在模型可以描述的范围内；或者是模型的灵活性不够。这个时候重新设计一个模型，给模型更大的灵活性，将训练集的数据增加，比如将输入前一天的观看人数改为输入前56天的观看人数。或者可以用深度学习，对模型增加函数进行修正，增加更多的灵活性。

二、优化问题

用梯度下降进行优化，可能会卡在局部最小值的地方，无法找到全局最小值。

判断是模型偏差还是优化问题，可以通过比较不同的模型。如20层网络的模型与56层相比，随着迭代次数的上升，损失逐渐降低，但是结果20 层的损失比较低，56 层的损失还比较高。如果优化成功，56 层的网络应该要比 20 层的网络可以得到更低的损失。但结果在训练集上面没有，这个不是过拟合，这个也不是模型偏差，因为 56 层网络灵活性是够的，这个问题是优化不给力，优化做得不够好。

可以先用较小较浅的模型进行训练，然后跟更深的模型进行比较，确定是否是优化问题：如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低代表说优化有问题。

如果训练数据上面的损失小，测试数据上的损失大，可能是真的过拟合。在测试上的结果不好，不一定是过拟合。要把训练数据损失记下来，先确定优化没有问题，模型够大了。接下来才看看是不是测试的问题，如果是训练损失小，测试损失大，有可能是过拟合。

三、过拟合

模型在训练集上表现良好但在测试集上损失较大，有可能是过拟合。

解决过拟合可以增加训练集，虽然模型的灵活性可能还是很大，但由于数据变多，不受限制的模型曲线区域变短，模型与真实情况的匹配性更高。也可以进行数据增强，不是使用了额外的数据，而是根据问题的理解创造出新的数据，比如图像识别中对图像进行左右翻转或者放大截取某一块。

另外一个解法是给模型一些限制，让模型不要有过大的灵活性，使函数的选择有限，匹配性更强。可以给模型比较少的参数。如果是深度学习的话，就给它比较少的神经元的数量，或者让模型共用参数，可以让一些参数有一样的数值。也可以使用早停（early stopping）、正则化（regularization）和丢弃法（dropoutmethod）。