Google Gemini 大模型技术架构剖析

最新推荐文章于 2025-05-16 14:05:46 发布

musicml

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量3.5k

点赞数 23

文章标签：人工智能

本文链接：https://blog.csdn.net/musicml/article/details/134905533

版权

本文介绍了Google的Gemini多模态模型系列，包括其架构、性能优势和预训练方法。特别关注了AlphaCode2的构建，以及如何在直播中从原理到实践讲解Gemini和ChatGPT的实战应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

▼最近直播超级多，预约保你有收获

近期直播：《从原理到实践教你做出一个Gemini/ChatGPT》

—1—

Gemini 技术架构剖析

Google 新的多模态模型家族 Gemini，它在文本、图像、音频、视频等方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。

Gemini Ultra 是最强大的模型，可在各种高度复杂的任务（包括推理和多模式任务）中提供最先进的性能。由于 Gemini 架构，它在 TPU 加速器上能够高效地进行规模化服务。

Gemini 模型是基于 Transformer解码器（Decode Only）构建，针对神经网络结构和目标做了优化，从而提升大规模预训练时训练和推理的稳定性，所以Gemini 是类似 GPT 的 Decoder-only 预测 next token prediction的模式。经过训练以支持 32k 的上下文长度，采用高效的注意机制（例如，多查询注意力（Shazeer，2019）），如下图所示：

Gemini 支持以文本、图像、音频和视频的交错序列作为输入（在输入序列中用不同颜色的标记表示），它可以输出交错的图像和文本响应。

Gemini 把几种模态数据联合起来从从头训练，包括文本、图片、音频、视频等，遵循 next token prediction 的模式，所有模态的数据先变成 token，然后图片、视频等平面数据转换成 32*32 (举例）tokens，最后变成一维线性输入，让模型预测 next token，这样就把不同模态在预训练阶段统一起来。

Gemini 模型预训练在训练算法、数据集和基础设施方面进行创新。对于 Pro 模型，采用了基础设施和学习算法的固有可扩展性。使得能够在几周内完成预训练，利用了 Ultra 的一小部分资源。Nano 系列模型利用了蒸馏和训练算法的进一步改进，为各种任务（比如：摘要和阅读理解）提供了最佳的小型语言模型。

—2—

Gemini 数据工程剖析

Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。预训练数据集使用来自网络文档、书籍和代码的数据，并包括图像、音频和视频数据。

使用 SentencePiece 分词器（Kudo和Richardson，2018），发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇，并进而提高模型性能。例如，Gemini 模型可以高效地标记非拉丁脚本，这反过来可以提高模型质量以及训练和推理速度。

对所有数据集应用质量过滤器，使用启发式规则和基于模型的分类器。还进行安全过滤以删除有害内容。从训练语料库中筛选出评估集。通过对较小的模型进行消融实验，确定了最终的数据混合和权重。在训练过程中进行分阶段训练，通过增加领域相关数据的权重来改变混合组合，直到训练结束。数据质量对于一个高性能的模型至关重要，并且相信在寻找预训练的最佳数据集分布方面还存在许多有趣的问题。

—3—

AlphaCode 2 技术架构剖析

AlphaCode 团队构建了AlphaCode 2，这是一个新的基于 Gemini 的代理程序，它将 Gemini 的推理能力与搜索和工具使用相结合，以在解决竞争性编程问题方面表现出色。AlphaCode 2 在 Codeforces 竞技编程平台上排名前15％的参赛者中，相比于排名前50％的最新技术前身有了很大的改进，架构设计如下：