构建基础模型需要大量数据。在来年,我希望我们能够让模型从更少的数据中学习更多。
人工智能社区通过扩大转换器和数据集取得了显著的成功。但这种方法可能正在达到收益递减点——这是预训练社区在尝试训练下一代模型时越来越普遍的信念。无论如何,当前的方法带来了实际问题。在庞大的数据集上训练大型模型会消耗大量的时间和精力,而且我们训练大型模型的新数据源已经用完了。
事实上,当前的模型消耗的数据比人类学习所需的数据多得多。我们早就知道这一点,但由于扩展的惊人效果,我们忽略了这一点。训练一个模型需要数万亿个 token,但人类要成为一个相当聪明的人,所需的 token 要少几个数量级。所以,我们最好的模型和人类在样本效率上是有差异的。人类的学习表明,存在一种学习算法、目标函数、架构或它们的组合,可以比当前模型更高效地学习样本。
解决这个问题的关键之一是使模型能够产生更高级别的抽象并过滤掉噪音。我相信这个概念,以及数据效率的一般问题,与人工智能中的其他几个当前问题有关:
• 数据管理:我们知道,我们用来训练模型的特定数据极其重要。众所周知,如今训练基础模型的大部分工作都是关于数据,而不是架构。为什么会这样?我认为这与我们的模型学习效率不高有关。我们必须提前做好工作来为模型准备数据,这可能会阻碍人工智能作为从数据中学习的自动过程的核心潜力。
• 特征工程:在深度学习中,我们总是朝着更通用的方法迈进。从深度学习革命开始,我们就逐步删除了手工制作的特征,例如计算机视觉中的边缘检测器和自然语言处理中的 n-gram。但这种工程只是转移到了管道的其他部分。例如,标记化涉及设计隐式特征。这表明,仍然有很大空间来构建数据效率更高、更普遍地能够处理更多原始模态和数据流的模型架构。
• 多模态:训练模型理解各种数据类型的关键是找出共同的核心抽象并将它们相互关联。这应该使模型能够通过共同利用所有模态从更少的数据中学习,这是多模态学习的核心目标。
• 可解释性和稳健性:要确定模型产生输出的原因,它需要能够产生更高级别的抽象,我们需要跟踪它捕获这些抽象的方式。模型在这方面做得越好,它的可解释性就越强,对噪声的鲁棒性就越强,学习所需的数据可能就越少。
• 推理:提取更高级别的模式和抽象应该允许模型更好地推理它们。同样,更好的推理意味着更少的训练数据。
• 民主化:最先进的模型的构建成本很高,其中包括收集和准备大量数据的成本。很少有参与者能负担得起。这使得该领域的发展不太适用于缺乏足够数据或财富的领域。因此,数据效率更高的模型将更容易获得和使用。
考虑到这些其他问题的数据效率,我相信它们都是相关的。目前尚不清楚哪个是原因,哪个是结果。如果我们解决了可解释性问题,我们设计的机制可能会导致能够提取更好特征的模型,从而产生数据效率更高的模型。或者我们可能会发现更高的数据效率会带来更多可解释的模型。
无论哪种方式,数据效率都是至关重要的,该领域的进展将成为人工智能更广泛进步的指标。我希望在来年看到重大进展。
Albert Gu 是卡内基梅隆大学机器学习助理教授,也是 Cartesia AI 的首席科学家。他被《时代》杂志评选为 2024 年人工智能领域最具影响力人物之一。
(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。
相关阅读:
关于译者
关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。