计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12

sp_fyf_2024

于 2024-10-11 22:17:44 发布

阅读量1.5k

点赞数 31

分类专栏：人工智能前沿技术大语言模型文章标签：人工智能算法语言模型神经网络自然语言处理数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyf2007/article/details/142863942

版权

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12

1. Autoregressive Large Language Models are Computationally Universal

D Schuurmans, H Dai, F Zanini - arXiv preprint arXiv:2410.03170, 2024
https://arxiv.org/pdf/2410.03170
自回归大型语言模型是计算通用的

摘要：
本文展示了基于变换器的语言模型的自回归解码能够实现通用计算，无需外部干预或修改模型权重。研究者通过考虑语言模型如何处理任意长输入的有界上下文来证明这一结果。他们提出了一种自回归解码的泛化，其中在处理每个连续的上下文后，发出的标记被附加到序列末尾。通过这种方式，研究者证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟，并且现有的大型语言模型可以在确定性（贪婪）解码下模拟这种行为。

研究背景：
随着大型语言模型的出现，人们开始质疑它们相对于经典计算模型的计算能力。先前的工作已经研究了大型语言模型的计算能力，例如通过考虑变换器架构在表示电路方面的表达能力。本文考虑了一个更一般的问题，即大型语言模型是否能够在应用无界链思考时支持通用计算。

算法模型：
研究者提出了一种自回归解码的泛化，其中在处理每个连续的上下文后，发出的标记被附加到序列末尾。他们还介绍了Lag系统，这是一种简单的计算模型，由一组规则组成，每个规则将输入模式映射到输出。
在这里插入图片描述

核心创新点：

提出了一种自回归解码的泛化，允许处理任意长的输入和输出序列。
证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟。
开发了一种特定的系统提示，可以驱动大型语言模型gemini-1.5-pro-001在贪婪解码下正确应用每一条2027规则。

实验效果：
实验表明，通过扩展自回归（贪婪）解码的gemini-1.5-pro-001能够精确模拟任何输入上的U15,2的执行，因此它是一个通用计算机。

后续潜在研究方向：

探索其他类型的语言模型是否也能实现通用计算。
研究如何进一步优化提示设计，以提高模型的计算效率。
考虑如何将这种计算能力应用于实际问题，例如自然语言处理以外的领域。

推荐阅读指数： ★★★★★

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sp_fyf_2024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。