论文翻译：arxiv-2024 Compression Represents Intelligence Linearly

CSPhD-winston-杨帆

已于 2024-09-08 10:12:46 修改

阅读量462

点赞数 7

分类专栏： LLMs-数据污染论文翻译文章标签：人工智能

于 2024-09-07 20:49:11 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142003954

版权

论文翻译同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

LLMs-数据污染

15 篇文章 0 订阅

订阅专栏

Compression Represents Intelligence Linearly
https://arxiv.org/abs/2404.09937

压缩线性地代表智能

摘要

有一种观点认为，学会压缩将导致智能（Hutter, 2006）。最近，语言建模已被证明等同于压缩，这为大型语言模型（LLMs）的成功提供了一个有说服力的理由：更先进的语言模型的发展本质上是增强压缩，从而促进智能。尽管有这样吸引人的讨论，但关于压缩和智能之间相互作用的经验证据很少。在这项工作中，我们在LLMs的背景下检验它们的关系，将LLMs视为数据压缩器。鉴于“智能”的抽象概念，我们采用平均下游基准分数作为替代指标，特别针对与知识和常识、编码和数学推理相关的智能。在12个基准测试中，我们的研究汇集了来自不同组织的30个公共LLMs。值得注意的是，我们发现LLMs的智能——通过平均基准分数反映——几乎与它们压缩外部文本语料库的能力线性相关。这些结果为支持这种信念提供了具体证据，即优越的压缩表明更大的智能。此外，我们的发现表明，压缩效率，作为从原始文本语料库派生的无监督指标，是一种可靠的评估措施，与模型能力线性相关。我们将我们的压缩数据集以及我们的数据收集流程开源，以促进未来的研究人员正确评估压缩。
在这里插入图片描述

图1：平均基准分数与模型压缩效率之间的相关性
使用每字符位数（BPC）评估。BPC是在表1中列出的外部原始语料库上计算的。
每个点代表一个LLM。左侧显示了平均基准分数与平均BPC之间的关系，而右侧专注于三个特定领域。ρ和e分别表示皮尔逊相关系数和线性拟合的均方根误差。

1 引言

长期以来，人们一直认为压缩与智能密切相关，一些研究人员甚至认为它们在根本上是等同的（Hernandez-Orallo & Minaya-Collado, 1998; Mahoney, 1999; Legg et al., 2005; Hutter, 2006; Legg & Hutter, 2007）。随着大型语言模型（LLMs）的最新进展及其对人工智能的影响，这一观点变得更加引人注目，从而引发了从压缩角度探索语言建模的探索。根据压缩理论，任何预测模型都可以转换为无损压缩器，反之亦然。因此，语言建模可以被认为是一种压缩形式，LLMs在数据压缩方面表现出强大的能力（Deletang et al., 2024）。

从这个角度来看，压缩导致智能的论点与当前基于LLMs的人工智能范式更加相关。然而，尽管有这些理论讨论，关于压缩和智能之间关系的经验证据仍然有限。在这项工作中，我们寻求进行这样的实证研究并回答：如果一个语言模型能够以无损方式用更少的比特编码一个文本语料库，这是否表明更大的智能？尽管“智能”的确切定义通常涉及哲学领域并且可能有很大差异，但我们的工作从实用的角度来处理“智能”，专注于模型完成各种下游任务的能力。这种处理方式与Hutter（2006）的定义一致，他指出“智能是一个代理在广泛环境中实现目标的能力”。

我们沿着三个关键能力衡量智能：知识和常识、编码和数学推理。具体来说，我们首先收集相应领域的外部原始语料库（例如GitHub代码用于编码能力），并评估各种LLMs压缩语料库的效率。随后，我们使用平均基准分数来衡量这些模型在一系列下游任务上的表现，以评估它们特定领域的智能。目标是检验模型的下游能力与它们的压缩效率之间的相关性。在对30个公共LLMs和12个不同基准测试的实验中，我们发现了一个显著的发现：LLMs的下游能力与它们的压缩效率几乎线性相关，每个评估的智能领域的皮尔逊相关系数约为-0.95，如图1所示。值得注意的是，这种线性关系甚至延伸到大多数单独的基准测试。

最近和并行的工作已经探索了基准分数与压缩等效指标（如验证损失）之间的关系，这些指标在同一模型系列中，模型检查点共享大多数配置，如模型设计、分词器和数据（Wei et al., 2023; Gadre et al., 2024; Du et al., 2024）。然而，我们的研究是第一个记录了不同模型大小、分词器、上下文窗口长度和预训练数据分布的LLMs中压缩和智能之间的线性相关性。我们的发现将压缩和智能之间的线性相关性确立为一个普遍原则，为长期以来的信念提供了实证支持，即优越的压缩表明更大的智能。

从实用的角度来看，压缩效率作为LLMs的无监督指标，其中文本语料库可以轻松更新以避免过拟合或测试污染。我们的发现支持采用压缩效率作为稳定、灵活且可靠的指标来评估LLMs，这与模型的能力线性相关。我们将我们的压缩语料库以及数据收集和处理流程开源，以便未来的研究人员可以轻松收集和更新他们自己的语料库以评估压缩。

CSPhD-winston-杨帆

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：arxiv-2024 Compression Represents Intelligence Linearly

有一种观点认为，学会压缩将导致智能（Hutter, 2006）。最近，语言建模已被证明等同于压缩，这为大型语言模型（LLMs）的成功提供了一个有说服力的理由：更先进的语言模型的发展本质上是增强压缩，从而促进智能。尽管有这样吸引人的讨论，但关于压缩和智能之间相互作用的经验证据很少。在这项工作中，我们在LLMs的背景下检验它们的关系，将LLMs视为数据压缩器。鉴于“智能”的抽象概念，我们采用平均下游基准分数作为替代指标，特别针对与知识和常识、编码和数学推理相关的智能。
复制链接

扫一扫

专栏目录