多模态3D理解的新篇章:ULIP (CVPR 2023) 与ULIP-2

aa7ad66987b7f0a1cf85d6ab9d8296d0.gif

©作者 | Tycho

3a07631479687c37732048cdc86c2c7f.png

简要概述

Salesforce AI 近期联手斯坦福大学(Prof. Silvio Savarese,Prof. Juan Carlos Niebles, Prof. Jiajun Wu)和得克萨斯大学奥斯汀分校(Prof. Roberto Martín-Martín),发布了 ULIP(CVPR 2023)和 ULIP-2 项目,这些项目正在引领 3D 理解的新篇章。他们采用了独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的特征空间。

4d7320d54cecc7c7787aabc8ab87bea5.png

论文标题:

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

收录会议:

CVPR 2023

论文链接:

https://arxiv.org/abs/2212.05171

项目主页:

https://tycho-xue.github.io/ULIP/

73e935a78c11694070cdf5a332db5176.png

论文标题:

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

论文链接:

https://arxiv.org/abs/2305.08275

代码链接:

https://github.com/salesforce/ULIP

这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。并且 ULIP-2 将这种多模态预训练变得可以不需要任何人工标注,从而可以大规模扩展。代码以及发布的大规模 tri-modal 的数据集(“ULIP - Objaverse Triplets” 和 “ULIP - ShapeNet Triplets”)已经开源。

ea7890e907cb5fac72098bc89380808e.gif

▲ 对齐(3D,图像,文本)这三种特征的预训练框架示意图。

2c2044a71c4c78a870adb2cef026a877.png

背景

3D 理解是人工智能领域的重要组成部分,它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。然而,由于 3D 数据的处理和解释复杂性,以及收集和注释 3D 数据的成本,3D 理解一直面临着巨大的挑战。

6987a558cb2bc088e305ad832808eceb.png

方法

ULIP

497117320d050c30cd4c0c6f529ca9ce.gif

▲ Tri-modal 预训练框架以及其下游任务。

ULIP(已经被 CVPR 2023 接收)采用了一种独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的表示空间。这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。

ULIP 的成功关键在于使用预先对齐的图像和文本编码器,如 CLIP,它在大量的图像-文本对上进行预训练。这些编码器将三种模态的特征对齐到一个统一的表示空间,使模型能够更有效地理解和分类 3D 对象。这种改进的 3D 表示学习不仅增强了模型对 3D 数据的理解,而且还使得跨模态应用如 zero-shot 3D 分类和图像到 3D 检索成为可能,因为 3D 编码器获得了多模态上下文。

ULIP 的预训练损失函数如下:

25c3b8449986622259f795918286dfca.png

在 ULIP 的默认设置中, 被设置为 0, 和 被设置为 1。每两个模态之间的对比学习损失函数的定义如下:

862c029b7fa725eb1f2c19802d08c344.png

▲ 这里 M1 和 M2 指三个模态中的任意两个模态。

ULIP 还做了由图像到 3D 的 retrieval 的实验,效果如下:

bd36a9308c5a2aad0c9da4e76069cb79.png

实验结果可以看出 ULIP 预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。令人惊讶的是,相较于其他的检索到的三维模型,第一名检索到的三维模型与查询图像的外观最为接近。例如,当我们使用来自不同飞机类型(战斗机和客机)的图片进行检索(第二行和第三行),检索到的最接近的 3D 点云仍然保留了查询图像的微妙差异。

ULIP-2

dac4ef5358749880a1a66afcdb34d938.gif

▲ 这里是一个 3D 物体生成多角度文字描述的示例。首先,我们从一组视角将 3D 物体渲染成 2D 图像,然后使用大型多模态模型为所有渲染出的图像生成描述

ULIP-2 在 ULIP 的基础上,利用大型多模态模型为 3D 物体生成全方面对应的语言描述,从而收集可扩展的多模态预训练数据,无需任何人工标注,使预训练过程和训练后的模型更加高效并且增强其适应性。

ULIP-2 的方法包括为每个 3D 物体生成多角度不同的语言描述,然后用这些描述来训练模型,使 3D 物体、2D 图像、和语言描述在特征空间对齐一致。这个框架使得无需手动注释就可以创建大量的三模态数据集,从而充分发挥多模态预训练的潜力。ULIP-2 还发布了生成的大规模三模态数据集:“ULIP-Objaverse Triplets”“ULIP-ShapeNet Triplets”。Table.1 显示了这两个 tri-modal 的 datasets 的一些统计数据。

26b6de136450609565a198013c5cb139.png

982bc8e4b895bf62d5f2d451b659efa2.png

实验结果

ULIP 系列在多模态下游任务和 3D 表达的微调实验中均取得了惊人的效果,尤其 ULIP-2 中的预训练是完全不需要借助任何人工的标注就可以实现的。ULIP-2 在 ModelNet40 的下游零样本分类任务中取得了显著的提升(74.0% 的 top-1 准确率);在真实世界的 ScanObjectNN 基准测试中,它仅用 1.4M 参数就取得了 91.5% 的总体准确率,这标志着在无需人工 3D 注释的情况下,实现了可扩展的多模态 3D 表示学习的突破。

ccfa01cf06b8d6aafd355b67aa0fac80.png

ccdad9a4a2e31dd128713b53a32cb39b.png

dfdf939bf8023c52aabf5c6d1b23a55d.png

消融实验

两篇论文均做了详尽的消融实验。

在“ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding” 中,由于 ULIP 的预训练框架有三个模态的参与,所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好,实验结果如下:

8b51f21c68e4b3085f21af5f1aac0d4b.png

从实验结果中可以看到,在不同的 3D backbone 中,对齐三个模态一致的比只对齐两个模态好,这也应证了 ULIP 的预训练框架的合理性。

在“ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding” 中,作者探究了不同的大型多模态模型会对预训练的框架有什么影响,结果如下:

fb33a0b81555e832a774166834b02eaf.png

实验结果可以看出,ULIP-2 框架预训练的效果可以随着使用的大型多模态模型的升级而提升,具有一定的成长性。

在 ULIP-2 中,作者还探索了在生成 tri-modal 的数据集是采用不同数量的视角会如何影响整体预训练的表现,实验结果如下:

52776bb7c4bbbf66e00e934d9bdecd9b.png

实验结果显示,随着使用的视角数量的增加,预训练的模型的 zero-shot classification 的效果也会随之增加。这也应证了 ULIP-2 中的观点,更全方位多样性的语言描述会对多模态预训练有正向的作用。

除此之外,ULIP-2 还探究了取 CLIP 排序过的不同 topk 的语言描述会对多模态预训练有什么影响,实验结果如下:

d8d657ced71d85d09cbb7f17bf28d4e8.png

实验结果表明:ULIP-2 的框架对不同的 topk 有一定的鲁棒性,论文中采用了 top 5 作为默认设置。

bb6308c0f08533b1d0a16ebe19ea0194.png

结论

由 Salesforce AI,斯坦福大学,得克萨斯大学奥斯汀分校联手发布的 ULIP 项目(CVPR 2023)和 ULIP-2 正在改变 3D 理解领域。ULIP 将不同的模态对齐到一个统一的空间,增强了 3D 特征的学习并启用了跨模态应用。ULIP-2 进一步发展,为 3D 对象生成整体语言描述,创建并开源了大量的三模态数据集,并且这个过程无需人工标注。这些项目在 3D 理解方面设定了新的基准,为机器真正理解我们三维世界的未来铺平了道路。

About Us

关于作者

cb5a6295261a5ba0e4402e0d42a78542.png

1

Salesforce AI

Le Xue(薛乐),Mingfei Gao(高明菲),Chen Xing(星辰),Ning Yu(于宁),Shu Zhang(张澍),Junnan Li(李俊男),Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles,Silvio savarese 

2

斯坦福大学

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吴佳俊) 

3

UT Austin

Prof. Roberto Martín-Martín

欢迎在 Twitter 上关注我们:@SFResearch @Salesforce。如果您有任何问题或想要进一步了解,可以通过电子邮件联系 Le Xue,邮箱地址为 lxue@salesforce.com。

更多阅读

91b32cb4f50af9720540eb112e9d6e0a.png

93a82b5f2be53acf52210ab6f7cb154b.png

21c3e552829c184a48a7dce593613781.png

89ec5847468d776ae3327844e56bd195.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

596d2000646176715c7d0b7b006d324d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

dc0a195a06d2958dfff9a72182f96783.jpeg

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CVPR 2022是计算机视觉和模式识别领域的顶级会议,而多模态研究是其重要的研究方向之一。多模态处理涉及处理和融合来自不同感知模态(例如图像、语音、文本等)的信息,以提高对现实场景的理解能力。 在CVPR 2022多模态方向的研究中,一些关键的趋势和话题将得到关注。首先,基于深度学习的多模态方法将继续发展,因为其在处理多模态数据中的高级特征表示方面取得了显著成果。这些方法使用强大的神经网络架构,能够跨不同感知模态获取数据并实现融合。此外,对于多模态研究的探索还将进一步推动更加复杂和深层次的网络设计,以实现更好的融合效果。 其次,跨模态学习也是CVPR 2022多模态研究的重要方向之一。这项研究旨在利用不同模态之间的共享知识,通过迁移学习和领域自适应等技术,从一个模态中的标记数据中学习到其他未标记模态的有效表达。这对于那些有限标记数据的模态研究任务非常有价值。 最后,CVPR 2022多模态方向还将关注各种真实应用场景中的挑战和问题。例如,多模态医学图像处理和分析领域的研究,可以辅助医生进行更准确的诊断和疾病检测。另外,多模态文本和图像生成方面的研究,也能够推动现实世界中的创造性设计和内容生成。 总之,CVPR 2022多模态方向的研究将继续推动计算机视觉和模式识别领域的发展。通过深度学习、跨模态学习以及应用于不同领域的研究,我们可以期待在多模态数据处理和融合方面取得更多突破和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值