读论文:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
- 摘要主要内容:讲述了一个以视觉为中心方法设计的多模态大语言模型(LLMs)。
- 主要观点:更强大的语言模型可以增强多模态能力,但是视觉组件的设计往往不够充分探索,并且与现在的视觉表示学习研究脱节。
- 主要工作:
1.研究使用LLMs和视觉指导调整作为接口,评估各种视觉表达,为不同模型和架构提供新见解——无论是自监督、强监督还是二者的结合——基于对超过20种视觉编码器的实验。
2.引入一个新的以视觉为中心的基准测试集(CV-Bench)。
3.为进一步提高视觉定位,提出了空间视觉聚合器(SVA),这是一个动态的、空间感知的连接器,它将高分辨率视觉特征与LLMs集成在一起,并减少了tokens的数量。
4.讨论了从公开可用的来源管理高质量视觉指导调整数据的重要性,强调了数据平衡和分布比率的重要性。
引言:
讲述了该论文的五个关键工作:
1.视觉表示:探索了各种视觉编码器及其组合
2.连接器设计:设计了一个新的动态且空间感知的连接器,将视觉特征与LLMs集成,同时减少了tokens的数量
3.从公共来源整理了高质量的视觉指令调优数据,强调分布平衡的重要性。
4.讨论了指令调优策略,并进行了实践。
5.基准测试:分析了现有的MLLM基准,将这些分为了4个直观的组,并引入了一个以视觉为中心的新基准“CV-Bench”。
多模态LLMs的初步研究与相关工作:
MLLM研究的关键组件包括:大语言模型、视觉编码器、多模态连接器、数据整理流程、指令调优策略、基准测试以及评估。
1.大语言模型是LLM的基础,发展很快,但引发了作者的担忧,多模态大模型太依赖语言模型的提升,容易受到LLM的偏见影响,忽略了视觉感知的真实评估。
2.视觉编码器,大多数MLLM利用监督模型,例如CLIP模型,使用大量的噪声网络图像-文本数据。然而,还有一些仅使用视觉信号学习表示,例如自监督模型、分割模型(segmentation)、depth-supervised(深度监督模型)、 diffusion models(扩散模型)。