NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)

Accepted by NeurIPS 2024

文章链接:https://arxiv.org/pdf/2412.19806
项目链接:https://vitron-llm.github.io/
Github链接:https://github.com/SkyworkAI/Vitron

亮点直击

  • 首次提出了一种通用的视觉多模态大语言模型(MLLM)——VITRON,能够在像素级对图像和视频进行理解、生成、分割和编辑。

  • 引入了一种更高效的LLM到解码器的指令传递机制,结合了离散文本和连续信号嵌入。

  • 提出了针对多模态大语言模型的像素级视觉语言时空对齐学习,使其能够达到最优的细粒度视觉能力。
    设计了一种协同模块,最大化任务持久的细粒度视觉特征在所有不同视觉任务之间的共享能力,通过此机制,VITRON的性能超越了现有的最先进(SoTA)专业模型。

总结速览

解决的问题

  • 多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。

  • 模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。

  • 视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。

  • 多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。

**提出的方案 **

  • 统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。

  • 混合指令传递方法:结合离散文本指令与连续信号嵌入,确保 LLM 决策能够精确传递到后端模块。

  • 跨任务协作模块:通过增强任务不变的细粒度视觉特征共享,提升不同视觉任务间的协同能力。

  • 精细化像素级时空对齐学习:设计基于像素的视觉语言对齐与时空预测调优,增强模型的细粒度视觉感知能力。

  • 对抗训练:将任务特定特征与任务不变特征解耦,提升跨任务间的表现稳定性。

应用的技术

  • 视觉-语言对齐学习:通过前端编码器与 LLM 的对齐优化,实现视觉与语言模态的深度协同。

  • 任务调用定向调优:训练 LLM 以更好地生成适合后端模块的调用指令。

  • 嵌入对齐调优:优化 LLM 与后端模块间的信号嵌入对齐,提高信息传递精度。

  • 多模态协作训练:融合像素级感知与时空预测,通过细粒度感知与对抗学习实现任务间协同优化。

达到的效果

  • 在图像和视频任务上实现了真正的统一支持,从静态图像到动态视频均表现出色。

  • 覆盖 12 项视觉任务,基于 22 个数据集的实验表明,VITRON 在多任务性能上与专用的单任务模型相媲美,甚至超越了某些任务的最优模型。

  • 实现了从视觉理解到生成、分割、编辑等全流程的高效支持,展现了卓越的多模态通用能力。

  • 模型设计的各项组件通过分析验证了其有效性,为未来多模态模型的进一步发展提供了参考。

VITRON架构

VITRON采用了现有流行多模态大语言模型(MLLMs)中最常见的“编码器-LLM-解码器”架构范式。整体框架如下图2所示,包含三个关键模块:

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值