谈谈LLM训练中的“过拟合”与“欠拟合”

图灵AI云

于 2024-09-14 13:34:07 发布

阅读量528

点赞数 9

文章标签：深度学习机器学习人工智能过拟合 overfitting LLM 神经网络

本文链接：https://blog.csdn.net/qianggezhishen/article/details/142256116

版权

如今，由于其出色的理解、生成和操纵人类语言的能力，语言模型已经成为焦点。据最新调查数据显示，大概30%的企业计划使用非结构化数据来提高大型语言模型（LLM）的准确性。在训练这些语言模型时，一个基本挑战是找到复杂性和泛化之间的正确平衡。也就是说，训练这些模型的时候，得找到一个刚刚好的点，就是别太复杂也别太简单，这个平衡点挺难抓的。这个平衡点就是咱们常说的过拟合和欠拟合，这俩概念在训练模型的时候特别关键，能大大影响最后模型的表现。

要让一个大型语言模型学会理解还能生成流畅的文本，这事儿挺有挑战的。咱们的目标是搞出一个模型，它不光在训练的时候表现好，碰到新的、没见过的数据也能照样给力。找到复杂和泛化的平衡点，就像跳一场需要很多技巧的舞蹈。还有两个东西在这里面也挺重要的：

偏差： 模型为使函数更容易学习而做出的假设。它实际上是训练数据的误差率。当误差率很高时，我们称之为高偏差；当误差率很低时，我们称之为低偏差。
方差： 训练数据和测试数据的误差率之间的差异称为方差。如果差异很大，则称为高方差；当误差差异很小的时候，则称为低方差。通常，我们希望降低方差以泛化我们的模型。

当一个模型学得太复杂了，开始死记硬背训练数据而不是真正理解背后的规律，这就叫做过拟合。这样的模型在训练数据上表现得特别好，但是一遇到新的没见过的数据就懵了。简单来说，就是模型对训练数据学得太死了，导致它没法把学到的东西用到新情况上，也就是所谓的泛化能力弱。

这就好比一个学生，他把课本上的答案都背下来了，但其实并不理解那些概念。在机器学习里，过拟合的模型就是对训练数据学得太细、太具体了，而没有掌握更普遍的规律。

比如说，有个语言模型的任务是生成电影评论。训练的时候，模型可能不小心就把训练数据里的特定短语、角色或者情节细节都学进去了。这样生成的评论可能看起来很真实，因为它模仿了训练数据的风格，但一旦遇到新的电影情节，它就不知道怎么写了。

要发现过拟合，我们可以观察模型在验证数据集上的表现，这个数据集是模型在训练时没见过的。如果发现模型在验证数据上的表现开始变差，但训练数据上的表现还是很好，那就说明模型可能开始过拟合了。这时候，模型把新数据套用到旧知识上的能力就变差了。

过拟合的原因可能有：