计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12
1. Autoregressive Large Language Models are Computationally Universal
D Schuurmans, H Dai, F Zanini - arXiv preprint arXiv:2410.03170, 2024
https://arxiv.org/pdf/2410.03170
自回归大型语言模型是计算通用的
摘要:
本文展示了基于变换器的语言模型的自回归解码能够实现通用计算,无需外部干预或修改模型权重。研究者通过考虑语言模型如何处理任意长输入的有界上下文来证明这一结果。他们提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。通过这种方式,研究者证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟,并且现有的大型语言模型可以在确定性(贪婪)解码下模拟这种行为。
研究背景:
随着大型语言模型的出现,人们开始质疑它们相对于经典计算模型的计算能力。先前的工作已经研究了大型语言模型的计算能力,例如通过考虑变换器架构在表示电路方面的表达能力。本文考虑了一个更一般的问题,即大型语言模型是否能够在应用无界链思考时支持通用计算。
算法模型:
研究者提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。他们还介绍了Lag系统,这是一种简单的计算模型,由一组规则组成,每个规则将输入模式映射到输出。
核心创新点:
- 提出了一种自回归解码的泛化,允许处理任意长的输入和输出序列。
- 证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟。
- 开发了一种特定的系统提示,可以驱动大型语言模型gemini-1.5-pro-001在贪婪解码下正确应用每一条2027规则。
实验效果:
实验表明,通过扩展自回归(贪婪)解码的gemini-1.5-pro-001能够精确模拟任何输入上的U15,2的执行,因此它是一个通用计算机。
后续潜在研究方向:
- 探索其他类型的语言模型是否也能实现通用计算。
- 研究如何进一步优化提示设计,以提高模型的计算效率。
- 考虑如何将这种计算能力应用于实际问题,例如自然语言处理以外的领域。
推荐阅读指数: ★★★★★