Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

本文链接：https://blog.csdn.net/lymake/article/details/136174492

Gemini 1.5 Pro 是一个高效的多模态模型，能处理超长上下文，如百万令牌，提升长文档问答、视频问答等任务的性能。它在长上下文检索任务上表现出近乎完美的召回率，并展示出学习小众语言的能力。相比 Gemini 1.0 系列，1.5 Pro 在多数基准测试中表现更优，而训练成本更低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、概述

在本报告中，我们展示了 Gemini 系列的最新模型 Gemini 1.5 Pro，这是一个计算效率极高的多模态专家混合模型，能够从数百万个上下文标记中回忆和推理细粒度信息，包括多个长文档和数小时的视频和音频。Gemini 1.5Pro 在跨模态的长上下文检索任务上实现了近乎完美的召回，提高了长文档问答、长视频问答和长上下文自动识别的最新水平，并在一系列基准测试中达到或超过了 Gemini 1.0 Ultra 的最新水平。研究 Gemini 1.5 Pro 的长上下文能力的限制，我们发现下一个令牌预测和接近完美的检索（》99%）持续改进，至少达到 1000 万个令牌，比现有模型如 Claude 2.1（200k）和 GPT-4 Turbo（128k）有了一代的飞跃。最后，我们强调了前沿大型语言模型令人惊讶的新功能；当给一份卡拉芒语语法手册时，该模型学会将英语翻译成卡拉芒语，其水平与一个人学习相同内容的水平相似。卡拉芒语是一种全球使用人数不到 200 人的语言。

我们展示了 Gemini 系列的最新多模式车型:Gemini 1.5 Pro。这是我们从 Gemini 1.5 发布的第一个版本，Gemini 1.5 是一个新的高性能多模态模型系列，它采用了一种新颖的专家混合架构以及在培训和服务基础架构方面的重大进步，使其能够推动效率、推理和长期上下文性能的边界。Gemini 1.5 Pro 旨在处理超长上下文；它能够从多达至少 1000 万个令牌中回忆和推理细粒度信息。这种规模在当代大型语言模型（LLM）中是前所未有的，并且能够处理长格式混合模态输入，包括完整的文档集合、数小时的视频和几乎一天的音频。双子星座1.5 Pro 超过 Gemini 1.0 Pro，在一系列基准测试中的性能与 1.0 Ultra 相似，但需要训练的计算量明显减少。

对越来越长的上下文的数据进行建模的能力已经跟踪了更通用和更有能力的语言模型的发展，从现在由 Shannon（1948），到 20 世纪 90 年代和 21 世纪初的现代 n 元模型（Brants etal.,2007；Chen and Goodman,1999；Jelinek,1998；Kneser and Ney,1995）通常限制为 5 个上下文标记，到 2010 年代的递归神经网络语言模型，该模型可以有效地基于数百个标记