Datawhale X 李宏毅苹果书 AI夏令营--深度学习入门 Task3

if 1

于 2024-09-03 16:44:04 发布

阅读量297

点赞数 11

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/by_x_y_z/article/details/141865838

版权

实践方法论，分析训练模型时可能遇到的问题

模型过于简单，让损失变低的函数不在模型可以描述的范围内

重新设计一个模型，给模型更大的灵活性，可以增加输入的特征（案例的一天增加为七天），也可以用深度学习

梯度下降可能会卡在局部最小值，相较于模型偏差，目标函数在模型范围内，但没找到

当训练数据的损失不够低时，要确定是否是优化问题

通过比较不同的模型来判断模型现在到底够不够大，如56层的损失比20层的损失大，代表56层网络的优化没做好，否则是模型偏差
看到一个从来没有做过的问题，可以先跑一些比较小的、比较浅的网络，或甚至用一些非深度学习的方法，比如线性模型、支持向量机，它们比较不会有优化失败的问题，借此先知道这些简单的模型可以得到什么样的损失，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低，代表说优化有问题，要选择其他更优算法
如果是模型偏差，就把模型变大。假设经过努力可以让训练数据的损失变小，接下来可以来看测试数据损失；如果测试数据损失也小，比这个较强的基线模型还要小，就结束了
过拟合是训练数据上损失小，测试数据损失大，而优化问题通常是训练数据上表现不佳
在测试上的结果不好，不一定是过拟合。要把训练数据损失记下来，先确定优化没有问题，模型够大了，接下来才看看是不是测试的问题，如果是训练损失小，测试损失大，这个有可能是过拟合

解决过拟合

通常最有效的方向是增加训练集，因为过拟合是模型在训练数据之外的地方灵活度过大，过于随意
- 数据增强：根据问题的理解创造出新的数据，例如将一张图片左右翻转，或截取放大，但不能随便乱做，如上下颠倒可能会产生奇怪的图像
另外一个解法是给模型一些限制，让模型不要有过大的灵活性，在选择函数的时候注意制造限制
- 给模型比较少的参数：如果是深度学习的话，就给它比较少的神经元的数量，或者让模型共用参数，可以让一些参数有一样的数值
  
  全连接网络是一个比较有灵活性的架构，卷积神经网络CNN是一种比较没有灵活性的模型，其是针对图像的特性来限制模型的灵活性
- 用比较少的特征，如将3天改为2天
- 早停，正则化，丢弃法
- 限制太大会导致模型偏差