（2025|Qwen Team，多模态，TMRoPE，Thinker-Talker）Qwen2.5-Omni 技术报告

EDPJ，公众号（EDPJ）

已于 2025-03-28 12:40:59 修改

阅读量973

点赞数 23

分类专栏：论文笔记文章标签：计算机视觉深度学习多模态大模型

于 2025-03-28 12:38:43 首次发布

本文链接：https://blog.csdn.net/qq_44681809/article/details/146591114

版权

论文笔记专栏收录该内容

359 篇文章

订阅专栏

Qwen2.5-Omni Technical Report

3.1 第一阶段：视觉与音频编码器独立训练

3.2 第二阶段：联合全参数训练与多模态整合

3.3 第三阶段：长序列数据训练提升理解能力

4. 后训练（Post-training）

1. 引言

本文提出了 Qwen2.5-Omni，一种端到端多模态模型，能够同时处理文本、图像、音频和视频，并以流式方式生成文本和自然语音响应。为实现多模态信息的实时流式输入，音频和视觉编码器均采用分块处理（block-wise processing），以分担长序列数据的感知和处理任务。

同时，为解决音视频输入的时间同步问题，设计了一种名为 TMRoPE（Time-alignedMultimodal RoPE，时间对齐多模态旋转位置嵌入）的新位置嵌入方法。

为避免文本生成和语音生成之间的干扰，提出了 Thinker-Talker 架构，其中 Thinker 为文本生成模块，而 Talker 为语音生成模块。

Qwen2.5-Omni 在多个多模态基准测试上均达到或超越了同类模型的性能，包括 Omni-Bench 等。

1.1 关键词

多模态模型（Multimodal Model）；端到端训练（End-to-End Training）；TMRoPE；Thinker-Talker 架构（Thinker-Talker Architecture）；流式语音生成（Streaming Speech Generation）

2. 架构

2.1 总体架构

如图 2 所示，Qwen2.5-Omni 采用了 Thinker-Talker 架构：

Thinker 类似于 “大脑”，负责接收、处理并理解来自文本、音频、图像和视频的多模态输入，生成高维的语义表示和相应文本。
Talker 则类似于 “嘴巴”，实时接收 Thinker 提供的高维表示和生成的文本 token，自回归地生成流式（streaming）语音 token，从而输出流畅自然的语音响应。

具体而言：

Thinker 基于 Transformer 解码器架构，配备了音频和图像编码器辅助多模态信息的提取。
Talker 采用了双轨自回归 Transformer 解码器结构，设计灵感源于 Mini-Omni 模型，直接使用 Thinker 输出的高维表示进行语音 token 的生成，确保语义表达的一致性和实时性。

整体架构设计为端到端训练和推理，Thinker 和 Talker 紧密协作，共享历史上下文信息，形成统一模型。

2.2 模态感知

为了统一处理不同的模态输入，Thinker 将文本、音频、图像和视频（无音频轨）转换为统一的隐含表示序列：

文本处理：采用 Qwen 的 tokenizer，基于字节级 Byte-Pair Encoding（BPE）编码方式，具有 151,643 个常规 token。

音频处理：

音频（包括视频中的音轨）统一重采样到 16kHz，将原始音频波形转为 128 通道的梅尔谱图（mel-spectrogram），帧长 25ms，帧移 10ms。
使用来自 Qwen2-Audio 的音频编码器，每个音频表示帧对应约 40ms 的原始音频。

视觉处理：

使用基于 Vision Transformer（ViT）的视觉编码器，参数规模约为 675M，来源于 Qwen2.5-VL。
视觉编码器通过混合图像和视频数据进行训练，确保同时具备图像理解与视频理解的能力。
对于视频输入，采用动态帧率抽取帧，以适配音频的采样率；静态图像则视作两个相同的视频帧处理。

为了同步音视频，本文提出一种特殊的交错时间编码方法和新型的位置编码——TMRoPE（Time-aligned Multimodal RoPE）：

TMRoPE 将原本的旋转位置嵌入（RoPE）分解为三个部分（时间、高度、宽度）。
文本输入的三维位置编码退化为一维；音频也采用统一的一维时间编码（每帧对应 40ms，50 帧共 2s）。
图像的视觉 token 固定时间编码，但空间位置（高度、宽度）编码独立变化。
视频中，每帧的视觉信息时间编码逐帧递增，空间编码与图像相同。
对于同时含有音视频的情况，每两秒将视觉和音频表示交错排列，实现模态信息的实时同步。

2.3 生成方式

Qwen2.5-Omni 的生成模块由文本生成和语音生成两部分组成：

文本生成：

由 Thinker 直接实现，采用标准大语言模型（LLM）的自回归采样方式进行文本生成。
生成过程可结合重复惩罚（repetition penalty）和 top-p 采样策略以提高文本多样性。

语音生成：

Talker 同时接收来自 Thinker 的高维表示及已生成文本 token，利用隐式的高维语义信息和显式的文本信息消除语音生成的不确定性。
设计高效的语音编解码器（qwen-tts-tokenizer），以自回归方式流式生成音频 token，且生成语音不需要逐词对齐，大幅降低了数据需求和推理难度。