第 2 章实践方法论-datawhale ai夏令营_《深度学习详解》第二章: 实践方法论读书笔记-CSDN博客

本文链接：https://blog.csdn.net/artificiali/article/details/141761268

分析一下在训练集上面没有学好的原因：

2.1 模型偏差

假设模型过于简单，一个有未知参数的函数代 θ1 得到一个函数 fθ1 (x)，同理可得到另一个函数 fθ2 (x)，把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了，没有包含任何一个函数，可以让损失变低的函数不在模型可以描述的范围内。在这种情况下，就算找出了一个 θ ∗，虽然它是这些蓝色的函数里面最好的一个，但损失还是不够低。

所以如果模型的灵活性不够大，可以增加更多特征，可以设一个更大的模型，可以用深度学习来增加模型的灵活性，这是第一个可以的解法。但是并不是训练的时候，损失大就代表一定是模型偏差，可能会遇到另外一个问题：优化做得不好。

2.2 优化问题

训练数据的损失不够低的时候，到底是模型偏差，还是优化的问题呢。找不到一个损失低的函数，到底是因为模型的灵活性不够，海里面没有针。还是模型的灵活性已经够了，只是优化梯度下降不给力，它没办法把针捞出来到底是哪一个。到底模型已经够大了，还是它不够大，怎么判断这件事呢？

通过比较不同的模型来判断模型现在到底够不够大

Q：如何知道是 56 层的优化不给力，搞不好是模型偏差，搞不好是 56 层的网络的模型灵活性还不够大，它要 156 层才好，56 层也许灵活性还不够大？

A：但是比较 56 层跟 20 层，20 层的损失都已经可以做到这样了，56 层的灵活性一定比 20 层更大。如果 56 层的网络要做到 20 层的网络可以做到的事情，对它来说是轻而易举的。它只要前 20 层的参数，跟这个 20 层的网络一样，剩下 36 层就什么事都不做，复制前一层的输出就好了。如果优化成功，56 层的网络应该要比 20 层的网络可以得到更低的损失。但结果在训练集上面没有，这个不是过拟合，这个也不是模型偏差，因为 56 层网络灵活性是够的，这个问题是优化不给力，优化做得不够好。

先知道这些简单的模型，到底可以得到什么样的损失。

接下来还缺一个深的模型，如果深的模型跟浅的模型比起来，深的模型明明灵活性比较大，但损失却没有办法比浅的模型压得更低代表说优化有问题.