NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

最新推荐文章于 2025-03-12 18:16:09 发布

AI生成未来

最新推荐文章于 2025-03-12 18:16:09 发布

阅读量2.9k

点赞数 12

分类专栏：视频生成图像编辑图像生成文章标签：图像生成视频生成图像编辑

本文链接：https://blog.csdn.net/AIGCer/article/details/144896452

版权

Accepted by NeurIPS 2024

文章链接：https://arxiv.org/pdf/2412.19806
项目链接：https://vitron-llm.github.io/
Github链接：https://github.com/SkyworkAI/Vitron

亮点直击

首次提出了一种通用的视觉多模态大语言模型（MLLM）——VITRON，能够在像素级对图像和视频进行理解、生成、分割和编辑。

引入了一种更高效的LLM到解码器的指令传递机制，结合了离散文本和连续信号嵌入。

提出了针对多模态大语言模型的像素级视觉语言时空对齐学习，使其能够达到最优的细粒度视觉能力。
设计了一种协同模块，最大化任务持久的细粒度视觉特征在所有不同视觉任务之间的共享能力，通过此机制，VITRON的性能超越了现有的最先进（SoTA）专业模型。

总结速览

解决的问题

多模态大语言模型（MLLMs）在支持多任务方面缺乏统一性，特别是图像和视频的联合处理能力不足。
模型在细粒度像素级理解上存在局限，无法实现高精度的视觉区域定位与编辑。
视觉功能单一，难以支持从视觉理解到生成、分割、编辑等全方位任务。
多任务间存在协作性不足，任务间可能互相影响，难以实现统一优化。

**提出的方案 **

统一架构设计：VITRON 采用基于 LLM 的框架，前端集成图像、视频和像素级区域视觉编码器，后端结合最先进的图像与视频模块，支持视觉理解、生成、分割和编辑等多任务。
混合指令传递方法：结合离散文本指令与连续信号嵌入，确保 LLM 决策能够精确传递到后端模块。
跨任务协作模块：通过增强任务不变的细粒度视觉特征共享，提升不同视觉任务间的协同能力。
精细化像素级时空对齐学习：设计基于像素的视觉语言对齐与时空预测调优，增强模型的细粒度视觉感知能力。
对抗训练：将任务特定特征与任务不变特征解耦，提升跨任务间的表现稳定性。