Datawhale X 李宏毅苹果书 AI夏令营 Task03笔记

Dark_lyre

已于 2024-09-03 20:28:14 修改

阅读量650

点赞数 25

文章标签：人工智能笔记

于 2024-09-03 20:27:33 首次发布

本文链接：https://blog.csdn.net/Dark_lyre/article/details/141869943

版权

接前文Datawhale X 李宏毅苹果书 AI夏令营 Task02笔记-CSDN博客

第2章实践方法论

在应用机器学习算法时，实践方法论能够帮助我们更好地训练模型。如果在 Kaggle 上的结果不太好，虽然 Kaggle 上呈现的是测试数据的结果，但要先检查训练数据的损失。看看模型在训练数据上面，有没有学起来，再去看测试的结果，如果训练数据的损失很大，显然它在训练集上面也没有训练好。接下来再分析一下在训练集上面没有学好的原因。

2.1 模型偏差

假设模型过于简单，一个有未知参数的函数代 $\theta _1$ 得到一个函数 fθ1(x)，同理可得到另一个函数 fθ2(x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 $\theta ^{*}$ ，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。

这个时候重新设计一个模型，给模型更大的灵活性。这里就类似于我们前文中的例子，最初 $y=b+w*x_1$ 的模型太简单，因此我们通过增加输入的特征值的方式来增加模型的灵活性以降低损失。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

2.2 优化问题

一般只会用到梯度下降进行优化，这种优化的方法很多的问题。比如可能会卡在局部最小值的地方（当然在前文中我们知道这个问题基本只会发生在只有一个位置参数时），无法找到一个真的可以让损失很低的参数，如图 2.3(a) 所示。如图 2.3(b) 所示蓝色部分是模型可以表示的函数所形成的集合，可以把 θ 代入不同的数值，形成不同的函数，把所有的函数通通集合在一起，得到这个蓝色的集合。这个蓝色的集合里面，确实包含了一些函数，这些函数它的损失是低的。但问题是梯度下降这一个算法无法找出损失低的函数，梯度下降是解一个优化的问题，找到 θ∗ 就结束了。但 θ∗ 的损失不够低。这个模型里面存在着某一个函数的损失是够低的，梯度下降没有给这一个函数。

训练数据的损失不够低的时候，到底是模型偏差，还是优化的问题呢。找不到一个损失低的函数，到底是因为模型的灵活性不够，海里面没有针。还是模型的灵活性已经够了，只是优化梯度下降不给力，它没办法把针捞出来到底是哪一个。到底模型已经够大了，还是它不够大，怎么判断这件事呢？

一个建议判断的方法，通过比较不同的模型来判断模型现在到底够不够大。举个例子，这一个实验是从残差网络的论文“Deep Residual Learning for Image Recognition”里面节录出来的。这篇论文在测试集上测试两个网络，一个网络有 20 层，一个网络有 56 层。图 2.4(a)横轴指的是训练的过程，就是参数更新的过程，随着参数的更新，损失会越来越低，但是结果20 层的损失比较低，56 层的损失还比较高。

2.3 过拟合

为什么会有过拟合这样的情况呢？举一个极端的例子，这是训练集。假设根据这些训练集，某一个很废的机器学习的方法找出了一个一无是处的函数。这个一无是处的函数，只要输入 x 有出现在训练集里面，就把它对应的 y 当做输出。如果 x 没有出现在训练集里面，就输出一个随机的值。这个函数啥事也没有干，其是一个一无是处的函数，但它在训练数据上的损失是 0。把训练数据通通丢进这个函数里面，它的输出跟训练集的标签是一模一样的，所以在训练数据上面，这个函数的损失可是 0 呢，可是在测试数据上面，它的损失会变得很大，因为它其实什么都没有预测，这是一个比较极端的例子，在一般的情况下，也有可能发生类似的事情。

另一种情况如下，由于训练集的数据相对实际情况而言不具有特征代表性，那么由于模型强大的灵活性，没有训练集做为限制的地方，模型可以变成各式各样的函数，产生各种奇怪的结果。

怎么解决过拟合的问题呢，有两个可能的方向：

1. 第一个方向是往往是最有效的方向，即增加训练集。因此如果训练集，蓝色的点变多了，虽然模型它的灵活性可能很大，但是因为点非常多，它就可以限制住，它看起来的形状还是会很像，产生这些数据背后的 2 次曲线，如图 2.7 所示。可以做数据增强（data augmentation，），这个方法并不算是使用了额外的数据。

2. 另外一个解法是给模型一些限制，让模型不要有过大的灵活性。假设 x 跟 y 背后的关系其实就是一条 2 次曲线，只是该 2 次曲线里面的参数是未知的。如图 2.8 所示，要用多限制的模型才会好取决于对这个问题的理解。因为这种模型是自己设计的，设计出不同的模型，结果不同。假设模型是 2 次曲线，在选择函数的时候有很大的限制，因为 2 次曲线要就是这样子，来来去去就是几个形状而已。所以当训练集有限的时候，来来去去只能够选几个函数。所以虽然说只给了 3 个点，但是因为能选择的函数有限，可能就会正好选到跟真正的分布比较接近的函数，在测试集上得到比较好的结果。

2.4 交叉验证

比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集（training set），一部分是验证集（validation set）。比如 90% 的数据作为训练集，有 10% 的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数，根据验证集上面的分数去挑选结果，再把这个结果上传到 Kaggle 上面得到的公开分数。

其实最好的做法，就是用验证损失，最小的直接挑就好了，不要管公开测试集的结果。在实现上，不太可能这么做，因为公开数据集的结果对模型的选择，可能还是会有些影响的。理想上就用验证集挑就好，有过比较好的基线（baseline）算法以后，就不要再去动它了，就可以避免在测试集上面过拟合。但是这边会有一个问题，如果随机分验证集，可能会分得不好，分到很奇怪的验证集，会导致结果很差，如果有这个担心的话，可以用 k 折交叉验证（k-foldcross validation），如图 2.11 所示。k 折交叉验证就是先把训练集切成 k 等份。在这个例子，训练集被切成 3 等份，切完以后，拿其中一份当作验证集，另外两份当训练集，这件事情要重复 3 次。即第一份第 2 份当训练，第 3 份当验证；第一份第 3 份当训练，第 2 份当验证；第一份当验证，第 2 份第 3 份当训练。

接下来有 3 个模型，不知道哪一个是好的。把这 3 个模型，在这 3 个设置下，在这 3 个训练跟验证的数据集上面，通通跑过一次，把每一个模型在这3种情况的结果，都平均起来，再看看谁的结果最好。

2.5 不匹配

图2.13中横轴就是从2021年的1月1号开始一直往下，红色的线是真实的数字，蓝色的线是预测的结果。2月26日是2021年观看人数最高的一天了，机器的预测差距非常的大，差距有2580，所以这一天是2021年观看人数最多的一天。跑了一层两层三层跟四层的看看，所有的模型的结果都不好，两层跟三层的错误率都是2千，.其实四层跟一层比较好，都是 1800左右，但是这四个模型不约而同的，觉得2月26日应该是个低点，但实际上2月26日是一个峰值，模型其实会觉得它是一个低点，也不能怪它，因为根据过去的数据，周五晚上大家都出去玩了。但是2月26日出现了反常的情况。这种情况应该算是另外一种错误的形式，这种错误的形式称为不匹配(mismatch)。