LeCun谢赛宁提出全新多模态大模型!1000张A100算力训出SOTA!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

2d19d051c54ed42e21331f93646e790c.jpeg

一水 发自 凹非寺
转载自:量子位(QbitAI)

刚刚,谢赛宁&Lecun团队官宣新成果——

正式推出以视觉为中心的多模态大模型Cambrian-1

4bd43ff1fd966a02b60650fdcde6e346.png

模型名为“寒武纪”,谢赛宁本人激动表示:

就像在寒武纪大爆发中生物发展出更好的视力一样,我们相信视力的提高不仅意味看得更远,还意味更深入地理解。

一直以来,谢赛宁都在思考一个问题:

人工智能是否需要感官基础来提升理解能力?

从之前的项目(MMVP、V*、VIRL)中,他和团队注意到当前的多模态大模型(MLLM)存在意想不到的视觉缺陷

cf2e6054a5790ddb0552a6bec00214ab.png

虽然可以通过增加数据短暂解决问题,但根本问题是,当前的视觉表示还不足以理解语言

基于CLIP和视觉SSL的模型已被证明是有效的,但它们也有自己的一系列问题。

CLIP/SigLIP模型很棒,但我们需要使我们的方法多样化,并不断探索新的可能性,而不是安定下来并声称胜利。

ed50b15ea563a84a5097a3dc763f70a0.png

现在,“不求安定”的谢赛宁团队交出了最新答卷。

仅用四分之一的视觉标记,Cambrian-1性能显著优于miniGemini和LLaVA-Next等其他方法,且在以视觉为中心的基准测试中差距尤为明显。

75d7994a6fdb0df3e69c1fc679b2cacc.png

有网友惊呼:

视觉模型的新时代即将开始

490a76adaa54f8be44acd6b878ad40c1.png

那么,团队具体如何构建这个新模型?接下来一起瞅瞅。

五大关键打造Cambrian-1

Cambrian-1是一系列以视觉为中心的MLLMs,围绕五个关键支柱构建。

f9edb0e8850e8dbdd337599418116613.png

新测试基准CV-Bench

首先,团队引入了新的以视觉为中心的基准测试“CV-Bench”

团队比较了使用23个不同视觉主干训练的MLLMs的视觉禁用和视觉启用设置之间的性能。

结果表明,当前大多数基准测试无法恰当评估以视觉为中心的能力,而那些能够做到这一点的基准测试往往样本数量有限

a9df5b5d7fe85d2cf66f1b867979d960.png

为了解决以视觉为中心的基准稀缺问题,团队引入了CV-Bench,这是一个重新利用标准视觉任务进行多模态评估的基准,包含约2600个以视觉为中心的VQA问题

9034f706fbaacbbc7e27e1b7c6bd2b45.png

MLLM作为视觉模型评估器

此外,Cambrian-1还被用作评估视觉模型的工具

团队评估了多种视觉编码器及其组合,以确定哪些编码器能够提供最有效的视觉特征表示,从而优化MLLMs性能。

结果显示,CLIP模型不出意外名列前茅,而自监督学习(SSL)出现了几个值得关注的点。

  • 解除视觉编码器的固定状态能够带来显著的性能提升,特别是在以视觉为中心的基准测试中,这一策略为SSL模型带来了更为明显的改进。

  • 虽然语言监督在视觉表示学习中提供了显著的优势,但SSL方法在拥有充足数据和经过适当指令调整的情况下,同样能够实现追赶。

  • 总体来看,SSL模型在视觉中心的基准测试中显示出良好的性能,并且能够与CLIP模型有效协同工作,这表明应持续推进视觉表示学习研究。

2b2300fa6ccc4a2fc7d2ba8daa577a50.png
94325e935e1b1daf33bdaa8b3797d013.png

值得一提的是,由研究者wightmanr训练的ConvNeXt CLIP模型在当前的实验框架中表现出色。

高分辨率编码器显著增强了图表和以视觉为中心的基准测试的性能,而基于ConvNet的架构天然适合处理视觉任务。

看到这一结果,谢赛宁满怀憧憬:

如果用我们的MLLM管道来评估timm库中的模型,这可能会带来一些非常令人兴奋的进展!

新连接器SVA

另外,为了优化视觉和语言信息的融合过程,团队引入了一种新的连接器设计——空间视觉聚合器(SVA)。

3938e1c0bc6ce6b9eeafd48fae71e46c.png

SVA基于两个原则设计:

  • 空间归纳偏差的显式编码。这一策略允许模型在处理视觉信息时,能够更加精确地定位和整合局部特征,从而提高对空间结构的理解。

  • 多阶段视觉特征聚合。在LLM的多个层次上,该方法执行了视觉特征的多次聚合,这使得模型能够在不同抽象级别上反复访问和利用视觉信息,增强了模型对视觉内容的深入分析和记忆能力。

这是一种动态的空间感知连接器,它将高分辨率视觉功能与LLMs集成在一起,同时减少了tokens数量。

谢赛宁特意强调:

SVA在寒武纪框架中至关重要,依靠简单的多层感知器(MLP)可能不足以完全挖掘优秀视觉数据的潜力

指令微调

在指令微调阶段,MLLM一般使用MLP作为连接器连接预先训练的LLM和视觉骨干网。

不过最近的研究建议跳过连接器预训练以降低计算成本(同时不影响性能)。

于是团队用不同大小的适配器数据进行了实验,遵循LLaVA的方法,最初仅微调连接器,然后解冻LLM和连接器。

结果表明,预训练连接器可以提高性能,而使用更多适配器数据可以进一步增强性能,所以团队采用1.2M适配器数据标准化2阶段训练方法。

8508d594eb35dcfc194dbabce9f08126.png

指令调优数据集Cambrian-10M

最后,团队还推出了用于训练MLLM的指令调优数据集——Cambrian-10M,它整合了视觉问答、OCR数据及少量精选的纯语言指令数据。

在此基础上,团队顺带推出了更小但质量更高的7M精选版

090e71baaad5b824790f86604865ebeb.png

团队还针对性推出了一个互联网数据收集引擎

12a01d42e6bfc8a5ae4bc0a356015cb2.png

有了数据,团队通过设置数据点数量的阈值来实现数据平衡,以优化模型性能。

选定的阈值有150k、250k、350k和450k,研究表明在250k至350k之间的阈值对于Cambrian-10M数据集的性能最为有利。

54c0f00dfec762040211982b909b391f.png

另外,鉴于不同类型的视觉指令调整数据具有不同的能力,团队在固定数据集大小为1350k的条件下,进行了试点实验。

结果显示:(1)平衡一般数据、OCR和语言数据至关重要。(2)知识密集型任务的表现受到多种因素的影响,通常需要结合OCR、图表、推理和一般感知。

3ef889df00562b63315828240b4fc9da.png

在管理指令调整数据的过程中,团队观察到了一种“答录机现象”

训练有素的MLLM可能在VQA基准测试中表现出色,但缺乏基本对话能力,并且默认输出简短响应。

这种差异的原因在于,基准测试问题通常只需要一个选项、选择或单词的回答,这与MLLM在更广泛和现实的应用场景中有所不同。

对此,团队通过在训练期间加入额外提示来减轻了这种现象。

比如下图左侧,带有系统提示的模型会在正确回答问题的同时,产生更长、更有吸引力的回答。

而且,系统提示还会通过鼓励一连串的思考,来增强模型在推理任务(如数学问题)上的表现。

07f755fc309984eb67935ecb819d0169.png

完全开源

上述模型权重、代码、数据集,以及详细的指令微调和评估方法现已全面开源

484d0b506a43a2d74c0bf9abb503767b.png

抱抱脸已有三种尺寸的模型(8B、13B和34B),团队将很快发布GPU训练脚本和评估代码。

5c39da5714751e6bc19d4033bf1198cd.png

谢赛宁还公开感谢谷歌对此研究提供了TPU支持。

据论文一作Shengbang Tong曾经的老师马毅教授透露:

这个模型是在过去几个月借谷歌的TPU训练的(等价于1000张A100的算力)。

24738dba1623c25b55257768b3dbe597.png

最最后,对于Cambrian-1的出现,谢赛宁发出感慨:

这一情况让人想起2015-2016年,当时大家都认为ImageNet监督预训练天下无敌,其他视觉表征至少落后10-15%。
但是,研究人员们可没被吓倒,还是继续琢磨各种新方法和任务。
直到几年后,MoCo就展示了超越监督预训练模型的潜力。

3e169d2f8bf209bbf606582ae72d9a66.png

而这或许才是开发本项目的最大意义:

2f3f969aca4644eff7df1b9d59137aa3.jpeg

论文:
https://arxiv.org/abs/2406.16860
项目主页:
https://cambrian-mllm.github.io/#visual-representation
开源地址:
https://github.com/cambrian-mllm/cambrian?tab=readme-ov-file
https://huggingface.co/collections/nyu-visionx/cambrian-1-models-666fa7116d5420e514b0f23c
参考链接:
https://x.com/sainingxie/status/1805862015778341123

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值