CVPR 2022 Oral | 以人为中心的多功能多模态预训练

关注公众号,发现CV技术之美

本篇分享 CVPR 2022 Oral 论文『Versatile Multi-Modal Pre-Training for Human-Centric Perception』,以人为中心的多功能多模态预训练。

详细信息如下:

86ae6cf5489eca474e340632a604ad0d.png

  • 论文链接:https://arxiv.org/abs/2203.13815

  • 代码:https://github.com/hongfz16/HCMoCo

以人为中心的感知在计算机视觉与图形学应用中扮演着重要角色。但是这些应用通常需要大量的标注数据以达到较好的效果。而标注数据的成本非常高,尤其是密集标注例如分割和DensePose。因此,如图一所示,我们希望有一个多功能的预训练模型,作为一个基础模型,用以数据高效的下游任务迁移。

为了达到这个目标,我们提出了以人为中心的多模态对比学习框架HCMoCo(Human-Centric Multi-Modal Contrastive Learning),利用人体数据多模态的特点(RGB,深度图,人体关键点),进行高效的人体表示学习。在研究中,我们面临两个挑战,其一为多模态数据的密集表达预训练此前并未被研究过,其二为如何高效地使用稀疏的人体数据,例如人体关键点。

c444e1b466e1bfdcda93a3b21e0042b6.png

图一:以人为中心的感知任务的多功能多模态预训练

为了解决这些挑战,如图二所示,我们设计了层次化的对比学习目标,1)样本级别的模态无关的表示学习;2)密集的样本模态内部的对比学习;3)稀疏的人体结构指导的对比学习。通过层次化的对比学习,我们实现了模态无关的隐空间学习,并且隐空间的特征是连续有序并且结构与语义上一致的。

29b4911232deed2358bbc7944e2c2f4b.png

图二:HCMoCo层次化的对比学习

通过结合异构的数据集,HCMoCo提供的预训练模型可以使用现有的特定任务下的人体数据以实现高效的迁移学习。如图三所示,在四个不同模态的下游任务上,我们进行了充分的实验,展现了HCMoCo的有效性,尤其是在数据有限的情况下。只需一次预训练,我们将预训练模型迁移到DensePose预测,RGB人体分割,深度图人体分割和深度图3D关键点预测这四个任务上。如下图所示,HCMoCo的预训练均超过了大家常用的ImageNet预训练模型。更多的详细结果请参见原论文。

821e2799cb52c571f63c7c08d56b7ccb.png

图三:HCMoCo在四个下游任务上实现了高效的迁移学习

此外,我们还通过跨模态监督与模态缺失的推理,展现了HCMoCo的多样性。如图四所示,通过HCMoCo的训练框架,我们可以实现在RGB上进行人体分割的监督学习,在测试时输入深度图也可以进行分割。同理,我们也可以实现训练时多模态同时训练,但是测试时只输入一种模态。Baseline方法均无法实现这两个任务,而我们的方法则可以达到合理的效果。

2179af618fbd451e6c540b1cd5395625.png

图四:HCMoCo在跨模态监督与测试中的应用

最后,我们还提出了第一个完整人体的RGBD分割数据集NTURGBD-Parsing-4K,如图五所示。我们从NTURGBD-60/120中采样了4000帧,进行了人工标注。

f8d4acb968a5909ad90fae223d2a6f32.png

图五:人体RGBD分割数据集,NTURGBD-Parsing-4K

ac0cddb5b3dcf89ec554946f0d4f8f93.jpeg

END

欢迎加入「计算机视觉交流群👇备注:CV

7310d3cedc074cda83135e1fc0e48471.png

CVPR 2022计算机视觉和模式识别领域的顶级会议,而多模态研究是其重要的研究方向之一。多模态处理涉及处理和融合来自不同感知模态(例如图像、语音、文本等)的信息,以提高对现实场景的理解能力。 在CVPR 2022多模态方向的研究中,一些关键的趋势和话题将得到关注。首先,基于深度学习多模态方法将继续发展,因为其在处理多模态数据中的高级特征表示方面取得了显著成果。这些方法使用强大的神经网络架构,能够跨不同感知模态获取数据并实现融合。此外,对于多模态研究的探索还将进一步推动更加复杂和深层次的网络设计,以实现更好的融合效果。 其次,跨模态学习也是CVPR 2022多模态研究的重要方向之一。这项研究旨在利用不同模态之间的共享知识,通过迁移学习和领域自适应等技术,从一个模态中的标记数据中学习到其他未标记模态的有效表达。这对于那些有限标记数据的模态研究任务非常有价值。 最后,CVPR 2022多模态方向还将关注各种真实应用场景中的挑战和问题。例如,多模态医学图像处理和分析领域的研究,可以辅助医生进行更准确的诊断和疾病检测。另外,多模态文本和图像生成方面的研究,也能够推动现实世界中的创造性设计和内容生成。 总之,CVPR 2022多模态方向的研究将继续推动计算机视觉和模式识别领域的发展。通过深度学习、跨模态学习以及应用于不同领域的研究,我们可以期待在多模态数据处理和融合方面取得更多突破和创新。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值