腾讯发布首个开源多模态大模型VITA:解决非唤醒交互和音频中断交互难题

图片

大语言模型 (LLM) 经历了重大的演变,特别是GPT-4o的出现显著推动了多模态大语言模型 (MLLM) 的蓬勃发展。GPT-4o的卓越多模态能力和用户交互体验在实际应用中非常重要,但没有开源模型在这两个领域同时表现出色。

来自腾讯优图实验室等机构的研究者提出了VITA,这是第一个能够同时处理和分析视频、图像、文本和音频模态的开源MLLM,并且具备先进的多模态交互体验

图片

论文地址:https://arxiv.org/pdf/2408.05211

论文标题:VITA: Towards Open-Source Interactive Omni Multimodal LLM

论文主页:https://vita-home.github.io/

与现有的开源MLLM相比较,VITA有以下三个关键特性

图片

传统的音频交互需要预定义的唤醒词,例如每次提问时都需要说“Hi! Siri?”,或者需要按下按钮来控制输入的音频问题。此外,当模型生成输出时,不能支持新的查询,因为以前的系统只能依次响应输入的查询。VITA克服了这两个限制

  • 全方位多模态理解能力:VITA展示了强大的多语言、视觉和音频理解基础能力,并在多种单模态和多模态基准测试中表现优异。

  • 非唤醒交互:VITA可以在不需要唤醒词或按钮的情况下被激活,并对环境中的用户音频问题做出响应。

  • 音频打断交互:VITA能够实时跟踪和筛选外部查询,允许用户随时以新问题打断模型的生成,VITA将根据新的查询做出相应的响应。

图片

VITA训练方法

图片

VITA的整体训练流程包括三个阶段:LLM指令微调、多模态对齐和多模态指令微调

1. LLM指令微调

Mixtral 8x7B的性能属于顶级开源LLM之一,它是具有稀疏专家混合(SMoE)架构的代表性LLM,因此该研究将其作为基础语言模型。然而研究者观察到官方的Mixtral 模型在理解中文方面的能力有限。为了注入双语(中文和英文)理解能力,该研究将中文词汇量扩展到基础模型,将词汇量从32,000个增加到51,747个。在扩展词汇量后,研究者使用500万个合成的双语语料库进行纯文本指令微调。

2. 多模态对齐

该阶段旨在弥合文本与其他模态之间的表征差距,从而为多模态理解奠定基础。

2.1 视觉模态

视觉编码器:研究者使用InternViT-300M-448px作为视觉编码器,该编码器接收448×448的图像作为输入,通过一个简单的两层MLP视觉连接器生成256个tokens。对于高分辨率图像输入,研究者实现了动态补丁策略来捕捉局部细节。

视频被视为图像的特殊情况进行处理。如果视频长度小于4秒,则统一每秒采样4帧;如果视频长度在4到16秒之间,则每秒采样一帧;对于超过 16 秒的视频,统一采样16帧。

为了防止引入过多的视觉tokens,不对视频的单个帧执行动态补丁。

视觉对齐:研究者仅在视觉对齐阶段训练视觉连接器,并且在该阶段不使用音频问题。

训练数据如下表1:

图片

  • 对于一般图像描述任务,研究者引入了ShareGPT4V的GPT-4V,以确保数据质量。同时引入了Allava-Caption和ShareGTP4o-Image,并补充了一些由现有MLLM生成的中文图像描述。

  • 对于一般图像问答(QA)任务,研究者初步收集了三个数据集:LLaVA-Mixture-sample、Lvis-Instruct以及ScienceQA。使用现有的MLLM生成了额外的21.8K中文QA数据。此外,研究者从LLaVA-150K数据集中移除了标题子集,并将其余部分翻译为中文。

  • 对于OCR和图表任务,研究者引入了Anyword-3M、ICDAR2019-LSVT、ICDAR2017-RCTW、Open-Chart(包括ChartQA、DVQA、InfoVQA、Pew和OpenCQA),以及一些由现有MLLM从其他开源数据中生成的合成数据。

  • 对于一般视频描述任务,研究者使用ShareGemini数据集。

  • 对于一般视频QA任务,研究者使用现有的MLLM重新标注了Video-ChatGPT和VideoChat2的开源数据。

数据连接:对于纯文本数据和图像数据,研究者的目标是将上下文长度拼接到6K tokens,如下图所示。视频数据则不进行拼接。

图片

拼接不同的数据带来了两个好处

一是支持更长的上下文长度,使得从单一到多图像-问题交互成为可能,从而实现更灵活的输入形式和延长的上下文;

二是提高了计算效率,因为视频帧通常包含大量视觉tokens。通过拼接图像-问题对,研究者在训练批次中保持了tokens数量的平衡,从而提高了计算效率。此外,研究者发现使用拼接数据训练的模型在性能上与未拼接数据的模型表现相当。

2.2 音频模态

音频编码器:输入音频首先通过Mel频率滤波器块处理,该块将音频信号分解为Mel频率尺度上的各个频带,模拟人类对声音的非线性感知。随后,研究者使用4*CNN的下采样层和24层的变换器,共计341M参数,处理输入特征。研究者采用简单的两层MLP作为音频-文本模态连接器。最终,每2秒的音频输入被编码为25个tokens。

音频对齐:在对齐任务中,研究者选择了自动语音识别(ASR)。数据集包括Wenetspeech(涵盖了超过10,000小时的多领域语音识别数据,主要侧重于中文任务)和Gigaspeech(包含10,000小时的高质量音频数据,大部分数据用于英语语音识别任务)。另一个任务是音频字幕生成,依赖于Wavcaps的AudioSet SL子集,该数据集包含400K个音频片段及其对应的音频字幕。在对齐过程中,音频编码器和连接器都进行了训练。

3. 多模态指令微调

在这一阶段,对模型进行指令微调,以增强其遵循指令的能力(文本 & 音频指令)。

3.1 训练数据

数据构建:指令微调阶段的数据来源与对齐阶段相同(见表1),并进行了如下改进:

  • 音频问题替换:研究者使用TTS技术(如 GPT-SoVITS6)将大约一半的问题随机替换为其音频版本,以提升模型对音频查询的理解能力和指令跟随能力。(音频问题和文本问题的数量见表1)

  • 系统提示设置:设置不同的系统提示,以避免不同类型数据之间的冲突(如下表2)。例如,有些问题可以基于视觉信息或模型自身知识进行回答,这可能会导致冲突。此外,由于图像数据的补丁类似于视频数据的多个帧,可能会使模型感到困惑。系统提示明确区分不同的数据类型,使其更易于理解。

图片

噪声音频构建:在人机交互过程中,并非所有的音频输入都需要响应,这些被称为噪声音频。一个具有良好交互能力的系统应能主动识别音频类型,并有选择性地执行后续输出。为此,研究者需要构建各种噪声音频样本以供模型识别。具体而言,研究者从现有的多模态和单模态QA数据中随机抽取474K个句子。这些负样本文本集中在不需要用户响应的非查询相关内容上,其长度分布与正向问题的长度分布一致。然后,研究者使用TTS工具将这些句子转换为音频。噪声音频样本的构建使模型能够识别不需要响应的音频输入,这有助于实现非唤醒交互。具体的训练策略将在以下部分详细说明。

3.2 训练过程

根据上述构建的QA对,模型需要区分三种类型的查询:

  • 查询音频:问题由音频发起。

  • 噪声音频:输入为音频,但不包含问题。

  • 查询文本:问题由文本发起。

基于这些查询类型,研究者设计了三种状态标记<1>、<2>和<3>。在训练阶段,研究者在答案的开头插入对应的状态标记,使模型能够灵活处理不同的交互行为。具体如下:

  • 状态标记<1>表示问题输入为查询音频。在这种情况下,模型的输出需要以文本或通过TTS工具转换的语音形式呈现给用户。

  • 状态标记<2>表示问题输入为噪声音频。模型应输出EOS标记作为终止符。然而,研究者发现训练过程中突然终止输出可能会显著降低性能。因此,研究者将噪声音频对应的文本发送给 LLM,并使用其输出文本作为训练目标。在推理过程中,<2>作为另一种特殊的EOS标记。

  • 状态标记<3>表示问题为纯文本,用于区分训练集中的前两种查询。

在训练过程中,视觉和音频编码器保持冻结状态,而连接器与Mixtral 8×7B一起进行训练。

图片

VITA部署策略

主要讨论如何实现两种交互功能:非唤醒交互和音频中断交互。

1. 非唤醒交互

非唤醒交互意味着模型可以在不需要唤醒词或按钮的情况下被激活,并对环境中的用户音频问题做出回应。部署过程必须满足以下要求:实时跟踪环境声音、过滤噪声音频。

2. 音频中断交互

音频中断交互允许用户随时用新问题打断模型的生成过程。为实现这一点,部署环境必须满足以下要求:实时跟踪和过滤外部查询、回答新问题。

图片

为实现这一目标,研究者提出了双工部署框架,同时部署两个VITA模型:

  • 生成模型负责回答用户查询。

  • 监控模型在生成过程中检测环境声音。它将忽略非噪声音频,但在检测到查询音频时会停止生成模型的进度。监控模型随后整合历史上下文,并对最新的用户查询做出回应。这时,生成模型和监控模型的身份会发生转变。

图片

VITA实验评估

1. 语言评估表现

为了验证训练过程对语言模型的有效性,研究者将训练后的模型“Mixtral 8x7B Ours”与官方版本“Mixtral 8x7B Instruct”进行对比,评估使用了四个数据集:C-EVAL、AGIEVAL、MMLU和GSM8K。这些数据集涵盖了包括普通多项选择题、多学科问答,以及数学和逻辑推理任务的各种场景,涉及中文和英文上下文。

结果如下表3所示,训练显著提升了模型在中文评估集(C-EVAL 和 AGIEVAL)上的能力,同时保持了在英文相关基准(MMLU)上的原有性能,并在数学推理任务(GSM8K)中显示出显著的改进。

图片

2. 音频评估表现

为了验证模型所学的语音表示的鲁棒性,研究者在Wenetspeech和Librispeech数据集上进行了测试。Wenetspeech具有两个评估拆分:test_net和test_meeting;作为模型的预留数据集,Librispeech评估了模型在未见数据集上的泛化能力,它有四个评估拆分:“dev” 验证集、“test” 测试集、“clean” 指较不具挑战性的集合、而 “other” 指较具挑战性的集合。

结果如下表4所示,可以看到,VITA在ASR基准上取得了可观的结果。

图片

3. 多模态评估表现

为了评估VITA的多模态能力,研究者在四个代表性基准上进行了评估,包括:MME 、OCRBench、HallusionBench和Video-MME。

如下图所示,在图像理解方面,VITA超越了图像专用的开源模型LLaVA-Next,接近于闭源模型Gemini 1.5 Pro;在视频理解方面,VITA超过了视频专用的开源模型Video-CCAM。尽管VITA与视频专用的LLaVA-Next-Video之间存在差距,但鉴于VITA支持更广泛的模态并优先考虑交互,这种差距是可以接受的。

图片

英智LLM推理API是一个基于人工智能大语言模型的推理API服务平台,它可以帮助开发者简单灵活地使用市面上的所有人工智能大语言模型,为企业定制专属的智能化解决方案

平台目前支持包括Llama 3.1、Mistral Large 2、Qwen 2等在内的主流开源大模型的最新版本,同时兼容OpenAI API


平台优势 <


  • 免费注册:申请服务的免费套餐后可获取专属您的“API_KEY”,即可接入本服务来免费使用API。

  • 在线使用:支持在线使用开源大模型。

  • 兼容能力强:提供API调用方式,与OpenAI API接口兼容(只要支持OpenAI API的应用,都可以使用)。

  • 推理速度快:基于NVIDIA高性能GPU算力,推理速度更快。

英智LLM推理API平台即将推出免费VITA API服务,敬请期待!

立即免费使用英智大模型API服务,请访问:https://cognihub.baystoneai.com

图片

技术交流请加入企业微信群:英智API服务交流群

图片

  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

英智未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值