Baichuan-Omni-1.5:支持文本、图像、视频和音频输入以及文本和音频输出的开源全模式基础模型

在这里插入图片描述

Baichuan-Omni-1.5是最新的端到端训练有素的全模态大型模型,支持综合输入模式(文本、图像、视频、音频)和双输出模式(文本和音频)。它以 Qwen2.5-7B 语言模型为基础,可以处理来自各种模式的输入,并以可控的方式生成高质量的文本和语音输出。

  • Baichuan-Omni-1.5-Base:为了促进全模态模型的发展,我们开源了一个在高质量、广泛的数据集上训练的基础模型。该模型没有经过指令监督微调(SFT),具有极大的灵活性,是目前可用的性能最佳的基础全模式模型

  • Baichuan-Omni-1.5:利用强大的百川-Omni-1.5-Base,该模型使用高质量的全模态对齐数据进行端到端训练。百川-Omni-1.5实现了与GPT-4o-mini. 相媲美的文本、图像、视频和音频理解能力。

Baichuan-Omni-1.5

Baichuan-Omni-1.5 代表了百川-omni 系列中最新、最先进的模型,通过端到端方法进行训练和推理。与开源模型相比,Baichuan-Omni-1.5 在理解文本、图像、音频和视频输入方面都有显著改进。值得注意的是,该模型在可控实时语音交互和跨各种模式的协作实时理解方面展示了令人印象深刻的能力。除了一般能力之外,Baichuan-Omni-1.5 还是医疗领域最杰出的 MLLM。这为 AGI 为人类社会的福祉做出贡献提供了令人兴奋的新可能性。根据评估结果,我们总结了Baichuan-Omni-1.5 的主要优势和贡献:

  • 全模式交互:baichuan-Omni-1.5 设计用于处理文本、图像、音频和视频输入,提供高质量的文本和语音输出。它能够实现无缝、高质量的跨模态交互,而不会影响任何模态的功能。

  • 卓越的视觉语言能力:baichuan-Omni-1.5 在十项图像理解基准测试中平均得分 73.3 分,超过GPT-4o-mini平均 6 分。

  • 统一而出色的语音功能:我们设计了一种 8 层 RVQ 音频标记器(Baichuan-Audio-Tokenizer),在捕获语义信息和声学信息之间实现了最佳平衡,帧频为 12.5 Hz 的帧速率,支持 高质量的可控双语(中文和英文)实时对话。与此同时,我们还开源了音频理解和生成基准(OpenAudio-Bench),以评估音频的端到端功能。

  • 领先的医学影像理解:我们收集了一个全面的医学理解基准:OpenMM-Medical 是对现有数据集的整合。我们的模型在 GMAI-MMBench 和 OpenMM-Medical上实现了最先进的性能。具体而言,在 OpenMM-Medical 上,Baichuan-Omni-1.5 使用 7B LLM 得到 83.8% 的分数,超过 Qwen2-VL-72B 的 80.7% 分数。

模型架构

在这里插入图片描述

多阶段全方位训练框架

在这里插入图片描述

绩效评估

在这里插入图片描述

纯文本理解能力
Comprehensive Tasks
ModelSizeMMLU
(Acc.)
CMMLU
(Acc.)
AGIEval
(Acc.)
C-Eval
(Acc.)
GAOKAO
(Acc.)
Proprietary Models
GPT 4o-88.0♢
78.3♢
62.3♢
86.0♢
-
GPT 4o mini-82.067.652.263.670.8
Open-source Models (Pure text)
MAP-Neo7B58.255.133.957.5-
Qwen1.5-Chat7B61.568.039.368.8-
Llama3-Instruct8B67.151.738.450.7-
OLMo7B28.425.619.927.3-
Open-source Models (Omni-modal)
VITA8x7B71.0*46.646.2*56.7*-
VITA-1.57B71.075.147.965.657.4
Baichuan-Omni7B65.372.247.768.9-
MiniCPM-o 2.67B65.363.350.961.556.3
Baichuan-Omni-1.5
7B72.275.554.473.173.5
图像理解能力
Multi-choice & Yes-or-No Question
ModelSizeMMBench-EN
(Acc.)
MMbench-CN
(Acc.)
SEED-IMG
(Acc.)
MMMU-val
(Acc.)
HallusionBench
(Acc.)
Proprietary Models
GPT-4o-83.4♢82.1♢-69.1♢
55.0♢
GPT-4o-mini-77.776.972.360.0♢46.1♢
Open Source Models (Vision-Language)
Qwen2-VL-7B7B81.781.976.5
52.750.6∗
MiniCPM-Llama3-V 2.58B76.773.372.445.8∗42.5
Open Source Models (Omni-modal)
VITA8x7B74.771.472.645.339.7∗
VITA-1.57B80.880.274.253.144.1
Baichuan-Omni7B76.274.974.147.347.8
MiniCPM-o 2.67B83.681.875.451.150.1
Baichuan-Omni-1.5
7B85.6
83.6
75.753.949.7
Visual Question Answering
ModelSizeRealWorldQA
(Acc.)
MathVista-mini
(Acc.)
TextVQA-val
(Acc.)
ChartQA
(Acc.)
OCRBench
(Acc.)
Proprietary Models
GPT-4o-75.4♢
63.8♢-85.7♢73.6♢
GPT-4o-mini-66.353.466.8-77.4
Open Source Models (Vision-Language)
Qwen2-VL-7B7B69.758.2∗84.3∗
83.0∗84.5∗
MiniCPM-Llama3-V 2.58B63.554.3∗76.672.072.5
Open Source Models (Omni-modal)
VITA8x7B59.044.9∗71.876.668.5∗
VITA-1.57B66.866.5
74.979.673.3
Baichuan-Omni7B62.651.974.379.670.0
MiniCPM-o 2.67B67.764.680.187.6
89.7∗
Baichuan-Omni-1.5 7B68.863.683.284.984.0
视频理解能力
General VQA   
ModelSize# FramesMVBench
(Acc.)
Egoschema
(Acc.)
VideoMME
(Acc.)
Perception-Test
(Acc.)
Proprietary Models
Gemini 1.5 Pro--81.3♢
63.2*75.0♢
-
GPT 4o mini--55.258.563.648.2
GPT 4o---77.2*
71.9♢-
GPT 4V--43.7♢55.6*59.9♢-
Open-source Models (Vision-language)
Qwen2-VL-7B7B2 fps (max 768)67.0* | 64.466.7* | 66.663.3* | 59.062.3* | 60.3
AnyGPT8B4833.232.129.829.1
VideoLLaMA 27B1654.6*51.7*46.6*51.4*
VideoChat27B1651.1*42.1♢33.7♢47.3♢
LLaVA-NeXT-Video7B3246.5♢43.9♢33.7♢48.8♢
Video-LLaVA7B841.0♢38.4♢39.9♢44.3♢
Open-source Models (Omni-modal)
VITA8x7B1 fps (max 32)53.453.956.156.2
VITA-1.57B1 fps (max 32)55.554.757.357.6
Baichuan-Omni7B1 fps (max 32)60.958.858.256.8
MiniCPM-o 2.67B1 fps (max 64)58.650.763.466.6
Baichuan-Omini-1.57B1 fps (max 32) 63.7 62.4 60.1 68.9
Open-ended VQA
ModelSize# FramesActivityNet-QAMSVD-QA
(Acc.)(Score)(Acc.)(Score)
Proprietary Models
Gemini 1.5 Pro--56.7*---
GPT 4o mini-1 fps (max 32)62.13.167.53.3
GPT 4o--61.9*---
GPT 4V--59.5*---
Open-source Models (Vision-language)
Qwen2 VL7B2 fps (max 768)17.41.961.13.5
VideoLLaMA 27B1650.2*3.3*70.9*3.8*
VideoChat27B1649.1*3.3*70.0*3.9*
LLaVA-NeXT-Video7B3253.5*3.2*67.43.4
Video-LLaVA7B845.3*3.3*70.7*3.9*
Open-source Models (Omni-modal)
VITA8x7B1 fps (max 32)55.03.563.93.7
VITA-1.57B1 fps (max 32)59.63.067.63.3
Baichuan-Omni7B1 fps (max 48)58.63.7
72.2 4.0
MiniCPM-o 2.67B1 fps (max 64)63.0
3.173.73.6
Baichuan-Omni-1.57B1 fps (max 48) 62.0 3.1 74.2
3.6
语音理解与生成综合能力
Audio Comprehensive Capacity
ModelSizeReasoning QALlama QuestionsWeb QuestionsTriviaQAAlpacaEval
s→ts→ss→ts→ss→ts→ss→ts→ss→ts→s
Proprietary Models
GPT-4o-Audio-55.6-88.4-8.10-9.06-8.01-
Open-source Models (Pure Audio)
GLM-4-Voice9B-26.5-71.0-5.15-4.66-4.89
Open-source Models (Omni-modal)
VITA-1.57B41.0-74.2-5.73-4.68-6.82-
MiniCPM-o 2.67B38.6-77.8-6.86-6.19-5.18-
Baichuan-Omni-1.57B50.040.978.575.35.915.525.725.317.796.94
全模态理解能力
Omni-Undesratnding
ModelSizeImage &
Audio (Acc.)
Image Caption &
Audio (Acc.)
Image & Audio
Transcript (Acc.)
Image Caption &
Audio Transcript (Acc.)
Proprietary Models
GPT4o-mini---37.037.7
Open-source Models (Omni-modal)
VITA8x7B33.131.842.044.2
VITA-1.57B33.429.648.547.2
Baichuan-Omni7B32.226.542.644.2
MiniCPM-o 2.67B40.530.853.2
46.3
Baichuan-Omni-1.5
7B42.9
37.7
47.946.9
医疗图像理解能力
Medical Understanding   
ModelSizeGMAI-MMB-VAL
(Acc.)
OpenMM-Medical
(Acc.)
Proprietary Models
GPT4o-mini-46.474.3
Open-source Models (Vision-Language)
Qwen2 VL7B46.376.9
Qwen2 VL72B50.7
80.7
Open-source Models (Omni-modal)
VITA-1.57B36.767.1
MiniCPM-o 2.67B41.573.6
Baichuan-Omni-1.5
7B49.983.8
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值