字节豆包团队开源 BAGEL - 多模态理解和生成统一模型

在这里插入图片描述

我们介绍了 BAGEL,这是一个开源的多模态基础模型,拥有 7B 活动参数(共 14B 参数),在大规模交错多模态数据上经过训练。在标准多模态理解排行榜上,BAGEL 的表现优于 Qwen2.5-VL 和 InternVL-2.5 等当前顶级开源 VLM,其文本到图像的质量可与 SD3 等强大的专业生成器相媲美。此外,BAGEL 在经典图像编辑场景中的质量结果也优于领先的开源模型。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些功能构成了 "世界建模 "任务,超出了以往图像编辑模型的范围。

该仓库托管了BAGEL的模型权重。有关安装、使用说明和更多文档,请访问我们的GitHub仓库

在这里插入图片描述

🧠 方法

BAGEL采用混合专家Transformer架构(MoT),以最大化模型从丰富多样的多模态信息中学习的能力。基于相同的容量最大化原则,它利用两个独立的编码器来捕捉图像的像素级和语义级特征。总体框架遵循"下一组令牌预测"范式,模型通过预测下一组语言或视觉令牌作为压缩目标进行训练。

BAGEL通过在跨越语言、图像、视频和网络数据的数万亿交错多模态令牌上进行预训练、持续训练和监督微调,扩展了MoT的能力。它在标准理解和生成基准测试中超越了开源模型,并展现出先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、3D操作、世界导航和顺序推理。

在这里插入图片描述

🌱 涌现特性

在这里插入图片描述

随着我们使用更多多模态标记对BAGEL进行预训练规模扩展,观察到在理解、生成和编辑任务上均取得持续性能提升。不同能力会在不同训练阶段涌现——多模态理解和生成能力较早出现,随后是基础编辑能力,而复杂智能编辑能力则较晚显现。这种阶段性发展表明存在涌现模式,高级多模态推理能力建立在完善的基础技能之上。消融实验进一步证明,结合VAE和ViT特征能显著提升智能编辑性能,这既凸显了视觉语义上下文对实现复杂多模态推理的重要性,也为高级能力涌现机制提供了佐证。

📊 基准测试

1. Visual Understanding

ModelMME ↑MMBench ↑MMMU ↑MM-Vet ↑MathVista ↑
Janus-Pro-7B-79.241.050.0
Qwen2.5-VL-7B234783.558.667.168.2
BAGEL238885.055.367.273.1

2. Text-to-Image Generation · GenEval

ModelOverall ↑
FLUX-1-dev0.82
SD3-Medium0.74
Janus-Pro-7B0.80
BAGEL0.88

3. Image Editing

ModelGEdit-Bench-EN (SC) ↑GEdit-Bench-EN (PQ) ↑GEdit-Bench-EN (O) ↑IntelligentBench ↑
Step1X-Edit7.096.766.7014.9
Gemini-2-exp.6.736.616.3257.6
BAGEL7.366.836.5244.0
BAGEL+CoT55.3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值