关注公众号,发现CV技术之美
本篇分享 CVPR 2022 Oral 论文『Versatile Multi-Modal Pre-Training for Human-Centric Perception』,以人为中心的多功能多模态预训练。
详细信息如下:
论文链接:https://arxiv.org/abs/2203.13815
代码:https://github.com/hongfz16/HCMoCo
以人为中心的感知在计算机视觉与图形学应用中扮演着重要角色。但是这些应用通常需要大量的标注数据以达到较好的效果。而标注数据的成本非常高,尤其是密集标注例如分割和DensePose。因此,如图一所示,我们希望有一个多功能的预训练模型,作为一个基础模型,用以数据高效的下游任务迁移。
为了达到这个目标,我们提出了以人为中心的多模态对比学习框架HCMoCo(Human-Centric Multi-Modal Contrastive Learning),利用人体数据多模态的特点(RGB,深度图,人体关键点),进行高效的人体表示学习。在研究中,我们面临两个挑战,其一为多模态数据的密集表达预训练此前并未被研究过,其二为如何高效地使用稀疏的人体数据,例如人体关键点。
图一:以人为中心的感知任务的多功能多模态预训练
为了解决这些挑战,如图二所示,我们设计了层次化的对比学习目标,1)样本级别的模态无关的表示学习;2)密集的样本模态内部的对比学习;3)稀疏的人体结构指导的对比学习。通过层次化的对比学习,我们实现了模态无关的隐空间学习,并且隐空间的特征是连续有序并且结构与语义上一致的。
图二:HCMoCo层次化的对比学习
通过结合异构的数据集,HCMoCo提供的预训练模型可以使用现有的特定任务下的人体数据以实现高效的迁移学习。如图三所示,在四个不同模态的下游任务上,我们进行了充分的实验,展现了HCMoCo的有效性,尤其是在数据有限的情况下。只需一次预训练,我们将预训练模型迁移到DensePose预测,RGB人体分割,深度图人体分割和深度图3D关键点预测这四个任务上。如下图所示,HCMoCo的预训练均超过了大家常用的ImageNet预训练模型。更多的详细结果请参见原论文。
图三:HCMoCo在四个下游任务上实现了高效的迁移学习
此外,我们还通过跨模态监督与模态缺失的推理,展现了HCMoCo的多样性。如图四所示,通过HCMoCo的训练框架,我们可以实现在RGB上进行人体分割的监督学习,在测试时输入深度图也可以进行分割。同理,我们也可以实现训练时多模态同时训练,但是测试时只输入一种模态。Baseline方法均无法实现这两个任务,而我们的方法则可以达到合理的效果。
图四:HCMoCo在跨模态监督与测试中的应用
最后,我们还提出了第一个完整人体的RGBD分割数据集NTURGBD-Parsing-4K,如图五所示。我们从NTURGBD-60/120中采样了4000帧,进行了人工标注。
图五:人体RGBD分割数据集,NTURGBD-Parsing-4K
END
欢迎加入「计算机视觉」交流群👇备注:CV