【1024程序员节】Mini-Omni2:实现具有视觉、语音和双工功能的开源 GPT-4o 模型

GPT4o 是一个包罗万象的模型,是多模态大型模型发展的一个里程碑。 它可以理解视觉、听觉和文本模式,直接输出音频,并支持灵活的双工交互。 不过,它的技术框架并未开源。 开源社区的模型通常能实现 GPT4o 的某些功能,如视觉理解和语音对话。 然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型极具挑战性。 在本文中,我们介绍了 Mini-Omni2,它是一种视觉-听觉助手,能够为用户的视频和语音查询提供实时、端到端的语音响应,同时还集成了听觉功能。 通过整合预训练的视觉和听觉编码器,Mini-Omni2 在各种模式下都能保持强大的性能。 我们提出了一个三阶段训练过程来调整模态,使语言模型能够在有限的数据集上训练后处理多模态输入和输出。 在交互方面,我们引入了基于语义的中断机制,使与用户的对话更加灵活。 所有建模方法和数据构建方法都将开源。 据我们所知,Mini-Omni2 是功能上最接近 GPT4o 的模型之一,我们希望它能为后续研究提供有价值的见解。

简介

Mini-Omni2 是一款全方位互动机型。 它能理解图像、音频和文本输入,并能与用户进行端到端的语音对话。 它具有实时语音输出、全方位多模态理解能力和灵活的交互能力,并具有说话时打断机制。

在这里插入图片描述

功能特点

✅ 多模态交互:与 GPT-4o 一样,能够理解图像、语音和文本。
✅ 实时语音到语音对话功能。 与 Mini-Omni 一样,无需额外的 ASR 或 TTS 模型。

安装

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

互动演示

  • 启动服务器

注意:运行 API_URL 设置为服务器地址的 streamlit 或 gradio 演示之前,需要先启动服务器。

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808
  • 运行streamlit demo

注意:您需要在本地运行已安装 PyAudio 的 streamlit。

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

本地测试

conda activate omni
cd mini-omni2
# test run the preset audio samples and questions
python inference_vision.py

Mini-Omni2 概览

  1. 多模态建模: 我们使用多个序列作为模型的输入和输出。 在输入部分,我们将串联图像、音频和文本特征来执行一系列综合任务,如下图所示。 在输出部分,我们使用文本引导的延迟并行输出来生成实时语音应答。

    在这里插入图片描述

  2. 多阶段训练: 我们提出了一种高效的对齐训练方法,并在三阶段训练中分别进行编码器适应、模态对齐和多模态微调。
    在这里插入图片描述

该模型支持其他语言吗?

不支持,该模型只针对英语进行训练。 不过,由于我们使用耳语作为音频编码器,该模型可以理解耳语支持的其他语言(如中文),但输出只能是英文。

Acknowledgements

  • Qwen2 as the LLM backbone.
  • litGPT for training and inference.
  • whisper for audio encoding.
  • clip for image encoding.
  • snac for audio decoding.
  • CosyVoice for generating synthetic speech.
  • OpenOrca and MOSS for alignment.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值