清华大学提出Mini-Omni2 | 拉齐GPT-4o模型功能，建模方式与数据构建一并开源！-CSDN博客

本文链接：https://blog.csdn.net/m0_59235245/article/details/143131509

GPT4o是一个涵盖多种模态的全能模型，标志着多模态大型模型发展的一个里程碑。它可以理解视觉、听觉和文本模态，直接输出音频，并支持灵活的双向交互。然而，其技术框架并非开源。开源社区中的模型通常可以实现GPT4o的一些功能，如视觉理解和语音对话。然而，由于多模态数据的复杂性、模型结构的复杂性和训练过程，构建一个统一模型以集成所有模态是一项具有挑战性的任务。

在本文中，作者引入了Mini-Omni2，它是一个能够实时提供用户视频和语音 Query 的端到端语音响应的视觉-音频助手，同时集成听觉功能。通过集成预训练的视觉和听觉编码器，Mini-Omni2在单个模态上保持了强大的性能。作者提出了一种三阶段训练过程，以对齐模态，使语言模型在有限的数据集上训练后能够处理多模态输入和输出。在交互方面，作者引入了一个基于语义的中断机制，以实现与用户更灵活的对话。

作者将开源所有建模方法和数据构建方法。据作者所知，Mini-Omni2在功能上与GPT4o最接近，作者希望它能为后续研究提供有价值的洞察。

GitHub：https://github.com/gpt-omni/mini-omni

1 引言

GPT-4o是多模态大规模模型发展的一个里程碑，主要体现在三个方面：

在多模态问答方面的强大能力；
它能够超越传统的文本输入和输出，实现多模态内容的理解和生成；
它与中断机制的灵活交互模式，使得人机交互更加自然和流畅。

然而，GPT-4o模型尚未开源，其技术规格尚未公开。至今，主流方法主要涉及使用各种预训练编码器为特定模态（如视觉和音频输入）获取文本输出，并利用模型堆叠技术集成文本转语音（TTS）模块，模拟GPT-4o的语音输出能力，从而实现其多模态功能。实现端到端的完整多模态理解和输出仍然是一个具有挑战性的任务。

近年来，随着大型模型如LLama3.1能力的不断扩大，研究行人开始探索实现GPT-4o性能的多模态方法。然而，这些研究成果往往仅关注GPT-4o的特定功能，如视觉文本理解（LLava，Flamingo），音频理解（Qwen2-audio），多模态理解（Vita），以及音频中的直接对话输出（Mini-Omni，LLama-Omni，Moshi）。然而，目前将文本、视觉和语音模态集成仍具有挑战性。

在作者看来，当前实现跨三种模态交互的挑战主要涉及以下几个方面：

(1) 模型能力 —— GPT-4o需要一个能够全面理解所有模态的统一模型，同时在各任务上保持强大的性能；

(2) 多模态环境下的直接推理输出能力 —— 作者的最新工作已经解决了如何在音频中增强模型的实时输出能力，为Mini-Omni2的语音交互能力奠定了基础；

(3) 大量数据需求 —— GPT-4o的训练需要整合视觉、音频和文本模态的数据，数量比以往的需求呈指数增长；

(4) 灵活的交互方法设计 —— GPT-4o的全双工能力也是其显著特征。

在本文中，作者提出Mini-Omni2作为Mini-Omni的延续，采用单一模型实现对GPT-4o的视觉、语音和文本能力的端到端模拟，并通过一种独特的语义中断机制进行增强。与Mini-Omni一致，作者保留了Qwen2作为基础模型，利用这种紧凑的架构实现对三种模态的全面多模态理解和实时 Stream 语音推理。此外，作者还使模型能够接收实时外部音频输入，模拟其"听觉"感知，并根据内容语义控制语音输出流。

Mini-Omni2的模型架构如图1所示。作为端到端模型，作者提高了数据利用率，并通过直接使用CLIP的预训练视觉编码器以及Whisper的语音识别模型组件作为视觉和音频输入的特征提取器，展示了Mini-Omni2算法的泛化能力。预训练编码器的特征和文本嵌入被 ConCat 以形成模型的输入。由于理解能力方面的挑战，作者没有采用 Token 到 Token 的输出范式。此外，该模型能够在语音和文本模态中进行推理，利用延迟并行输出方法实现文本和音频，实现与GPT-4o一致的性能。

在Mini-Omni2中，作者提出了一种基于有限数据的效率训练方法，旨在使模型的训练方法在其他多模态模型中辅助模态扩展。因此，作者避免了盲目地扩展数据集指数级，而是寻求使用最小的新数据开发多模态扩展方法。作者采用了三个阶段的训练过程：模态扩展、对齐和联合训练。

首先，Mini-Omni2模型经过语音识别和图像描述数据集的 Adapter 训练，从而拓宽了多模态理解的范围，而无需推理逻辑。
接下来，作者将Mini-Omni2模型训练为跨模态的问答任务中的文本输出，使 Adapter 生成的输出特征与文本嵌入对有效问答进行对齐。
在第三阶段，作者专注于多模态输出扩展，通过将音频输出纳入并训练听觉能力，如打断。

关于模型在语音交互方面的能力，Mini-Omni2 继续使用 SNAC 分词器，该分词器通过音乐合成 Level 的重构损失进行训练，以确保高质量的语音输出。然而，根据作者的观察，作者认为当前的全双工训练仍然不够稳定。此外，作者发现模型打断人类互动的能力相当有限。

因此，作者认为基于输入语义信息的打断对于实现稳定和灵活的人机交互至关重要。作者使用SNAC让模型实时编码其接收到的“听觉”波形，生成令其在每个生成过程中控制自己输出的 Token 。作为示例，作者使用短语“停止omni”构建数据，使用帧级的irq和n-irq特殊 Token 来控制模型，同时采用 Stream 数据构建方法。训练数据集和生成脚本将在社区开源。

为了评估Mini-Omni2的多模态交互能力，作者首先在传统视觉和听觉任务上测试其性能，验证该模型在基本任务（如图像和语音识别）上与原始模型保持一致。接下来，作者将比较该模型的文本能力与qwen2模型，以验证作者的方法在保留模型原始能力方面的有效性。最后，作者进行了一系列额外的实验，以测试模型的反应速度，比较多任务效果，并做一些案例研究。

总之，作者做出了以下贡献：

提出了 Mini-Omni2，这是第一个开源的大规模多模态模型，具有视觉、语音、文本和音频中断机制的能力。据作者所知，它是最功能类似于当前 GPT-4o 的端到端模型。图2展示了该模型作为视频语音助手的演示。
为了应对跨模态输入-输出相关的数据量指数级增长，作者提出了一种基于先前Mini-Omni的模态扩展方法的新颖训练 Pipeline 。该 Pipeline 包括三个训练阶段，使得文本模型首先扩展并适应多模态输入，然后在最后阶段将输出扩展到语音模态，并采用延迟并行生成算法实现实时语音输出。
作者探索了一种基于语义的中断方法，利用 Stream Token 作为输入，构建训练数据，使模型能够根据外部语义线索控制其音频输出流。
Mini-Omni2所使用的数据集全部为公开数据，所有生成的数据以及生成的脚本（语义中断数据）都将开源。

2 相关研究

大规模视觉语言模型 近年来，视觉语言模型发展迅速，并成为与大语言模型相结合的第一种模态。基础工作始于CLIP，该模型也用于本文中。后续工作通常采用视觉编码器、中间 Adapter 层以及大语言模型作为架构，以实现LLM理解和推理视觉输入。经典工作包括BLIP、BLIP2、Llava、Qwen-VL、Qwen2-VL、InstructBLIP、MiniGPT-4、GPT-4V、Gemini和Llama-3.1。研究者还探索其他方向，如分辨率更高的视觉编码器（如InternLM-XComposer2-4KHD）以及使用MOE架构，如CogVLM。本文采用的方法是最经典的，但未来视觉理解方面的改进可以参考近期的工作。

随着多模态大型模型的进一步发展，语音信号也已被离散化为 Token ，从而实现了类似于文本模型的理解和推理。重要的工作包括语音合成模型（如VALL-E），音乐生成模型（如MusicGen），以及AudioPaLM，Spectorn，和LauraGPT。最近，研究行人开始探索直接 Stream 音频推理的方法，例如Mini-Omni，Llama-Omni和Moshi。语音 Token 化也是生成稳定且信息丰富的 Token 的重要方向，最近的研究工作包括Speechtokenizer，Google USM和EnCodec。

多模态交互模型 随着GPT-4o的出现，研究行人开始研究端到端的对话多模态模型。早期的工作包括SpeechGPT，它使用A-T-T-A方法实现语音输入和输出的端到端。Mini-Omni引入了一种并行生成文本和音频的方法，使模型可以直接在音频中进行推理。Moshi和Llama-Omni使用相似的方法，尽管Moshi实现了全双工，但稳定性有限。Vita是一项重要的工作，它可以理解所有模态，但只输出文本。AnyGPT项目旨在实现全面的多模态理解和生成。这项工作是Mini-Omni的继续，旨在实现多模态输入和超低延迟的并行语音文本输出。

3 Mini-Omni2

如图1所示，Mini-Omni2模型的架构。除了文本嵌入模块外，Mini-Omni2还采用了CLIP和Whisperv3-Small的视觉组件作为视觉和听觉模量的编码器，以实现训练过程中高效的数据利用，并最大限度地减少预训练的工作量。

此外，Mini-Omni2还支持实时编解码音频任务生成控制流，为模型交互提供了更大的灵活性。

3.1 架构

视觉编码器 - 作者利用CLIP的视觉组件，特别是ViT-B/32模型，作为视觉编码器，将输入图像转换为224 x 224像素格式，生成一个长度为49的特征序列和一个长度为1的汇总特征序列。Mini-Omni2将这两个序列连接起来，形成一个长度为50的原始特征序列，并使用单层LlamaMLP作为模型 Adapter 。模型在固定频率的视频流中提取关键帧，并将这些作为视觉流输入，从而产生语音模型的输出。

音频编码器 - 在编码器部分，作者继续采用之前的工作，将Whisperv3-Small模型作为音频输入编码器。作者没有采用音频输入和输出的 Token 到 Token 的模型，有两个原因：

(i) 语音识别中的强语义对齐。由OpenAI提出的Whisper模型，在数以千计的数据集上进行训练展示了其卓越的鲁棒性。此外，作者还意外地发现，尽管没有在中国数据集上进行训练，Mini-Omni仍能理解中文数据。作者认为这要归功于Whisper模型自动对齐不同语言、音调和噪声水平所传达的相同含义的能力，从而使模型能够专注于理解用户需求。

(ii) 不稳定的开源音频 Token。作者观察到一个现象，即a) Mini-Omni2在训练过程中音频损失仍然很高，b) 音频片段的 Token 可以根据内容在两端的上下文发生显著变化。作者认为 Token 对于可靠地传达语音输入内容是不够的，因为ASR的表现不佳证明了这一点。

基于Qwen2-0.5B指令模型的语言模型后端 - Mini-Omni2 作为其基础语言模型使用了Qwen2-0.5B指令版本。作者使用litgpt训练框架将基于Llama的Qwen2模型进行移植，并采用0.5B模型的配置作为基础语言模型。

对于图3中显示的多层代码书并行生成，作者通过添加7个x4160子语言模型头扩展了Qwen2模型的词汇量，如图4所示，从而得到了181,120个词汇量。

3.2 多模态语言建模

多模态建模 - 将视为来自词汇集的文本句子，其中为长度。的概率可以表示为。现在，处理连续语音信号时，作者可以将其转换为离散语音 Token （dst），表示为，使用分词器。

在此背景下，是离散语音 Token 的词汇集。这些离散语音 Token 可以被视为在内的 spoken language，并以类似文本的方式进行建模。作者将文本和语音结合到新的词汇集中，即。此外，作者引入视频特征，其中表示从视频中提取的连续特征。

因此，作者可以将语音、文本和视频特征的概率建模为，其中。这个概率可以表示为 , 其中表示离散语音 Token 、文本 Token 和连续视频特征，或者各种组合、和。对于同时生成的音频和文本 Token ，可以将负对数似然损失公式表示为方程（1）。

在训练语料库中，和分别表示文本和音频的输出对，为训练示例的数量。表示第个示例的输入条件，表示样本和的最大 Token 数，和分别表示第个文本 Token 和音频 Token 的第个样本。

多模态token-Mixed输入 - 一些模型关键任务中输入和输出 Token 的建模如图3所示。在本节中，作者将讨论模型的输入和输出。由于模型融合了多个LM头，它以自回归方式生成多个序列。因此，模型也接受多个序列作为输入。输入序列可以包含至少一个模态的混合输入，至多三个模态。在本小节中，作者将讨论模态混合的方法。

实验表明，将自回归任务与语义信息相结合时，Transformer架构更容易训练，并生成更自然地响应。如图3（a）所示，作者首先放置由 Adapter 处理的视觉特征，然后是经过 Adapter 处理的Whisper特征。最后，在需要生成自回归响应的位置，作者放置一个特殊的 Token 来表示响应。总长度约为50（CLIP特征长度）+ （Whisper特征长度）。

单模态输入 单模态输入可能包括视觉、语音或文本输入。作者将视觉和音频模态的特征都分布在层1到7上。这些特征将在所有层特征的平均值中被复制，从而增强其重要性。值得注意的是，当没有特殊 Token 来控制单一模态的特征时，默认任务是图像识别、语音转文本问答和文本转文本问答。

文本-音频并行解码 在 Mini-Omni2 中，作者基本上保留了 Mini-Omni 的输出策略，采用 Text-Instruct Delay Parallel Decoding 算法来增强音频生成。这种方法利用文本-音频并行解码同时生成音频和文本 Token ，使用文本转语音合成实时输出，并将生成的序列求和以最小化延迟。作者继续采用由 MusicGen引入的并行生成方法，使用 SNAC 作为音频编码器，包括七个互补 Token 层。在单步内，作者生成8个 Token ，包括文本，同时保持层与层之间的一个步骤延迟。

此外，作者引入了一种批处理方法，涉及两个样本：一个需要文本和音频响应，另一个需要仅文本响应。通过丢弃第一个样本的文本 Token 并将第二个样本的输出嵌入到第一个，作者有效地将模型的文本能力转移到音频任务，显著提高了推理能力，同时保持了最小的资源开销。作者已在 Mini-Omni中提供了特定技术细节的详细解释。

总体而言，作者在单个模型中引入了针对三模态输入和两模态输出的建模方法。通过这些方法，模型可以完成八种合理的多模态任务，其中一些主要任务如图3所示，展示了在单个推理过程中生成的所有多层 Token 。

3.3 训练策略

在本节中，作者将介绍 Mini-Omni2 模型的训练阶段。Mini-Omni2 的整体训练过程如图5所示。训练过程分为三个阶段，每个阶段都采用了多任务训练。在图5中，除了第一阶段，还额外引入了一个基础的文本到文本任务，但并未明确描绘。作者将整个训练过程分为三个阶段：

在第一阶段中，作者采用了一种快速、小规模的训练方法，专注于线性层连接语言模型和编码器的权重。第一阶段的目的是确保模型接收到的多模态特征与嵌入层中表示的文本 Token 的特征非常相似。作者认为这种方法有两个主要优点：

1.  允许模型在后续训练中专注于特定模态的逻辑推理。  
2.  它最小化了语言模型核心参数因适应其他模态而产生的变化。

在第二阶段中，模型训练的主要任务是将基于文本输入的问答能力转移到基于图像和音频的问答能力。在这一步中，第一阶段中训练的 Adapter 暂时冻结，而语言模型的权重参与训练。在这个阶段，所有任务都不涉及音频响应。对于基于图像和音频的QA任务，只生成文本响应来建立模型的基础逻辑能力。语音输出只是将这种逻辑能力扩展到不同的模态。

在第三阶段中，模型的任务是将输出模态扩展到包括音频回答生成。如图5所示，模型将在第一阶段和第二阶段的全部任务上进行训练，对于所有问答任务，输出音频 Token 。此外，模型还将学习语义中断，这是下一节中介绍的算法。

3.4 语义中断

作者认为，实时对话模型需要能够被人类打断，以便实现更灵活的交互。然而，这种打断机制不应简单地基于VAD（语音活动检测），而应是一个能够判断用户是否想打断模型的系统。此外，模型在这方面的训练应非常健壮，能够处理各种外部情况（例如，噪音，其他对话和无关声音）。

背景噪声选择：

(1) 作者随机利用Libri-tts数据集的各种语音识别样本作为原始人类噪声数据样本。 (2) 作者使用了MUSAN数据集的样本，其中包括音乐、人声、白噪声和城市噪声。

语义中断构建：

作者利用随机语音音色构建了“停止全知”语句，随后与噪声混合。具体的数据构建方法将在下一节中介绍。

将上述数据结合，模型将接收包含"Stop Omni"短语的长时间数据流，其中混杂着各种噪音。模型将实时生成两种类型的状态 Token ：irq和n-irq，分别表示用户中断和不停中断的意图。每次模型生成一个音频 Token 时，它会预测一个新的任务；当irq Token 被输出时，它会中断音频流写入过程。

为了这个任务，作者使用 Token 作为输入来增强模型的实时处理能力。作者观察了Vita中的中断机制，并提出了一种将新任务以批处理形式集成的方法，允许统一模型在实时中控制自己，从而与双模型方法相比将内存开销减少一半。

4 数据和评估

在本节中，作者介绍了用于训练 Mini-Omni2 的数据集，并呈现了一些初步的评价结果。作者将对每个模态的数据组成和构建过程进行更详细的解释。在实验结果部分，作者仅展示了几个应用案例和基本能力评估。更多的实验将在即将发布的技术报告中包括，该报告将稍后发布。

4.1 数据集

Mini-Omni2模型的训练数据主要来源于五个部分，如表1所示：

文本问答数据：在所有训练阶段，当语言模型权重解冻进行训练时，文本问答数据被包含在内，以保持模型的推理能力。作者使用了Open-Orca数据集中的前150万个问题-答案对。
语音识别数据：语音识别数据用于持续维护模型对外部 spoken 输入的语义理解。作者主要使用了LibriTTS，VCTK和LibriSpeech数据集。
语音问答数据：作者没有使用单独的语音数据集；而是使用合成数据进行训练。语音问答数据来源于Moss-002-sft数据集。
图像问答数据：作者使用了ALLaVA-4V数据集中40万个样本（描述和指令）。
语音助手数据：为了使模型的回答更贴近语音助手的风格，作者持续使用了Mini-Omni中介绍的VoiceAssistant-400K数据集。

4.2 训练参数

Mini-Omni2模型在8个A100 GPU上完成了所有训练步骤。在 Adapter 训练阶段，学习率范围从2e-5到1e-3，而语言模型的学习率在2e-6和2e-4之间。最终的微调使用学习率在2e-6到2e-5之间的学习率。采用余弦调度器，有1,500个预热步骤，全局批处理大小为192。每个阶段使用完整数据集训练一个周期。视觉和音频编码器的规模在之前已经描述，使用的语言模型是Qwen2-0.5B指令版本，没有TTS Adapter 。所有模型 Adapter 使用Llama-MLP，中间大小为4,864。

4.3 数据构造

作者使用作者的语音识别数据集作为随机声音音色库。为了确保训练的稳健性，从该数据集中随机选择一个样本作为输入语音 Prompt ，并使用CosyVoice进行零样本语音合成。对于所有问答数据的输出，使用相同的声音音色。

干扰数据：首先，噪声数据通过流编码和解码来模拟实时输入到模型中。然后，从噪声数据中提取一个随机片段。在这个片段的结尾，插入一个“停止全知”的短语，该短语采用与对话数据相同的方式，使用随机的语音音色生成。最后，在这个片段的末尾添加0-10秒的额外“尾巴”。在 Token 方面，除尾巴之外的所有数据都 Token 为“n-irq”，而尾巴片段 Token 为“irq”，表示模型应该由人类中断。

身份数据：作者在Moss-002-sft数据集的所有位置替换了“Moss”为“Omni”，并添加了1,000个与身份相关的响应训练样本。

作者发现目前可用的视觉问答数据集的答案通常非常冗长，并且语调非常正式，这并不适合助手的语气。作者正在构建并开源一个新的视觉问答数据集，其语调更加放松和愉快。

4.4 实验结果

在实验部分，作者将全面评估Mini-Omni2在语音理解、图像理解和文本问答方面的基本能力。同时，作者还将测试模型的延迟和合成的语音质量等。这是一系列实验，仍需要一些时间。作者将尽快发布第二版本。目前，作者提供Mini-Omni2在语音识别方面的准确率来评估模型的语音理解能力，并给出一些实际案例。关于模型经验和更多案例，请关注作者的GitHub仓库。

根据表2中的语音识别结果，可以看出，在添加视觉模态后，Mini-Omni2的准确率相较于Mini-Omni略有下降。这种现象可能归因于数据比例的相对减少。此外，与模型所采用的 whisper 模块解码器相比，Mini-Omni2 在librispeech-other数据集上超过了 Whisper。这表明作者的训练过程增强了模型在语音识别方面的鲁棒性。

4.5 案例研究

这里提供了一些来自Mini-Omni2的真实响应示例。

5 限制

对于当前的Mini-Omni2模型，作者认为以下几个方面值得探索和改进：

模型规模的持续扩大和数据规模的扩大。Mini-Omni2旨在训练资源有限的小模型，作者认为扩展定律可以极大地提高其能力。
更强大的编码器和解码器以及基础模型。
使用多模态的token-in-token-out，放弃预训练编码器以实现广泛的多模态预训练。
对语音输出的控制（情感、自然度、音色）。
更丰富的语义中断机制。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述