WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION-CSDN博客

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136226412

本文介绍了一种在长视频和语言序列上训练神经网络的方法，通过RingAttention技术处理百万长度序列，克服内存限制和计算复杂性，构建最大上下文大小的Transformer。在大规模数据集上训练的7B参数模型能够理解长视频和语言，为长视频理解设定新标准，开源实现包括优化的RingAttention、掩码序列打包等技术。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION》的翻译。

摘要

目前的语言模型无法理解世界上不容易用语言描述的方面，并且难以处理复杂、冗长的任务。视频序列提供了语言和静态图像中没有的有价值的时间信息，这使得它们对与语言的联合建模具有吸引力。这样的模型可以发展对人类文本知识和物理世界的理解，从而实现更广泛的人工智能能力来帮助人类。然而，由于内存限制、计算复杂性和数据集有限，从数百万视频和语言序列的标记中学习带来了挑战。为了应对这些挑战，我们策划了一个由不同视频和书籍组成的大型数据集，利用RingAttention技术对长序列进行可伸缩训练，并将上下文大小从4K逐渐增加到1Mtoken。本文的贡献如下：
（a）最大上下文大小的神经网络：我们在长视频和语言序列上训练最大的上下文大小Transformer之一，在困难的检索任务和长视频理解中设定新的基准。（b）克服视觉语言训练挑战的解决方案，包括使用掩码序列打包来混合不同的序列长度，损失加权来平衡语言和视觉，以及为长序列聊天建模生成的QA数据集。（c）具有RingAttention、掩码序列打包和其他关键功能的高度优化实现，用于在数百万长度的多模式序列上进行训练。（d࿰