为什么gpt模型输入的token最大数量被限制在几万,是有技术问题吗?

既是技术问题,也是算力问题。


算力问题很容易理解,GPT4大概率还是用Transformer模型。Transformer如果经过各种Linear技术的优化(如Sparse),那么Scaling Law难以保证;如果保持原样,那么复杂度是二次的,序列一长,训练成本和推理成本都比较难顶。


技术问题则主要是Transformer的长度外推性并不好。如果你想处理1000长度的文本,那么预训练阶段就拿1000长度的文本去训,那自然没有问题,但如果你只拿500长度的文本去预训练,那么得到的模型通常无法很好地处理1000长度的文本,尤其是生成模型场景。

也就是说,短文本训练的模型,通常无法直接处理长文本,这就是长度外推问题,这个问题不只是Transformer有,RNN甚至CNN都会有。注意这里的长短是相对的,如果你想处理10000长度的文本,那么5000长度都算短文本了。

已经有一些工作试图解决这个问题,比如ALIBI、KERPLE、XPOS等,可以参考 Transformer升级之路:7、长度外推性与局部注意力 - 科学空间|Scientific Spaces ,但是这类工作都是基于局部化Attention思想强行赋予平移不变性,无法做到全局依赖,在LLM场景下意义不大。最近笔者也进行了一些尝试,初步看下述方案能保留全局依赖:

Transformer升级之路:9、一种全局长度外推的新思路 - 科学空间|Scientific Spaces​kexue.fm/archives/9603

此外,还有一个名为Parallel Context Window的方法值得一提,它是一种事后修改方案,能够增强训练好的模型的处理长度,并且理论上能保持全局依赖:

Parallel Context Windows Improve In-Context Learning of Large Language Models​arxiv.org/abs/2212.10947​编辑


至于Claude100k token或者GPT4的32k token是怎么做的,这个没有任何技术细节披露,没法猜。个人感觉100k其实还在能想象的范围内,硬训也是也可能的。说到这里,顺便提一件事:OpenAI在2019年的论文 Generating Long Sequences with Sparse Transformers 就已经做到了一万多token的自回归生成,并且它的Sparsity Pattern跟Parallel Context Learning很相似。

也就是说,人家19年的自回归生成长度就能够突破10k(并且还预见了接近Parallel Context Learning的方案),现在32k就是“洒洒水”了

参考资源链接:[GPT-4技术报告(中文版)](https://wenku.csdn.net/doc/3ruiqwuktr?utm_source=wenku_answer2doc_content) 为了深入了解GPT-4模型在多模态输入处理方面的技术突破,建议参考《GPT-4技术报告(中文版)》。在该技术报告中,详细介绍了GPT-4作为一个能够同时处理图像和文本输入的大型多模态模型的开发细节。 GPT-4的核心创新之一是其多模态处理能力。它通过结合深度学习和自然语言处理技术,使得模型能够从图像内容中提取特征,并与文本信息进行联合分析。具体来说,GPT-4利用卷积神经网络(CNN)来处理图像输入,提取视觉特征;同时使用Transformer架构来处理文本输入,捕捉语言的序列信息。 在技术上,GPT-4的多模态模型融合了预训练图像模型和语言模型的特征,通过设计一个专门的多模态融合网络结构,使得图像特征和文本特征能够有效地结合在一起。这种结构通常包括特征融合层,用于整合来自不同模态的信息,并通过多头自注意力机制进行联合分析,从而捕捉图像和文本之间的复杂关系。 此外,GPT-4模型的性能提升还体现在其预训练和微调过程的优化上。它通过大规模的语料库进行预训练,学习语言的通用表示,并通过在特定任务上的微调来调整模型参数,以达到在特定领域内的最优表现。这种预训练和微调的结合,不仅提高了模型对于多模态输入的理解能力,也提升了在现实世界场景中的应用效果。 对于希望进一步掌握GPT-4多模态处理技术的读者,除了阅读《GPT-4技术报告(中文版)》以外,还可以关注相关的研究论文和专业讲座,以获得更全面的技术视角和深度理解。 参考资源链接:[GPT-4技术报告(中文版)](https://wenku.csdn.net/doc/3ruiqwuktr?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值