NeurIPS 2021 | Transformer再下一城!CDN:首个融合两阶段和一阶段思想的HOI检测方法...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

近日,阿里巴巴淘系技术多媒体算法团队与计算机视觉青年学者刘偲副教授团队合作论文 CDN:《Mining the Benefits of Two-stage and One-stage HOI Detection》 被 NeurIPS 2021 接收,全部代码及模型均已开源。

作为当前全球最负盛名的AI学术会议,NeurIPS是每年学界的重要事件。NeurIPS全称为Neural Information Processing Systems,神经信息处理系统大会,通常每年12月举办,讨论内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。今年NeurIPS共有9122篇有效论文投稿,总接受率为26%。

本次合作论文在业界首次提出融合two-stage和one-stage思想的transformer-based HOI检测方法,大幅刷新了HOI领域多个数据集的指标。截止到发稿,本文为公开发表(含Arxiv)的HOI数据集的性能SOTA。


地址:

  • Arxiv:https://arxiv.org/abs/2108.05077

  • Github:https://github.com/YueLiao/CDN

背景

随着电商业务的深入发展,淘宝直播、逛逛、点淘等基于视频多媒体内容的业务形式正在成为淘宝内容消费种草和导购的主流模式,针对视频多媒体内容的深度内容理解与结构化成为视频业务提质提效的关键。

如图1所示,我们需要从海量的复杂视频中提取人、物、事、时、空的结构化信息,挖掘指向用户兴趣的视频核心时间片段和核心实体、事件、关系、意图指向、情感倾向,从而达到多层次认知和推理,进而为下游的标签、检索、生产等任务提供更精准的多模态输入。

视频内容相较于图文,信息量成倍增长,语义表达更复杂,人物关系更多样,情感表达更丰富,使得该技术领域面临了巨大的技术挑战。我们在解决点淘场景下的视频/直播在空间维度上的兴趣发现和定位问题时,沉淀下来了视频空间兴趣定位的技术能力,并在相应HOI领域学术数据集上进行验证,在NeurIPS 2021上录用了文章,具体将在下文介绍。

90bb0b00f294757ea9ae2d6336693a3b.png

图1:基于兴趣发现的视频内容理解示意图

摘要

在人物交互关系检测(Human-Object Interaction Detection, HOI)领域,两阶段范式是相对传统的方法,一阶段范式是近期开始流行起来的方法。我们探索了两阶段和一阶段范式各自的优缺点:两阶段范式主要受限于如何定位有关系的人-物对,而一阶段范式主要受限于如何权衡实体检测和关系分类的多任务学习。因此,如何发扬这两种范式各自的优势和抑制两种范式各自的劣势,成为一个核心问题。

我们提出了一种新颖的一阶段范式:通过级联的方式来解耦人-物对检测和关系分类。即,采用去掉关系分类多任务学习的一阶段范式作为人-物对检测器,然后设计一个独立的关系分类器来确定人-物对的关系类别。这样,两个级联的解码器可以解耦地分别关注人-物对检测和关系分类任务。

具体实施上,我们采用了基于transformer的HOI检测器来实现我们的设计。通过这种解耦的HOI检测范式,我们在两个大规模HOI数据集上都实现了目前业绩最优的效果,在HICO-DET和V-COCO上的mAP分别相对提升了9.32%和5.94%。

动机

如图2所示,传统两阶段范式把HOI检测任务405562edc8ae5141cbd339798322fe83.png分解成检测25f001bb421c9d9a3b06f9726eab9eff.png和分类7429da10485645db80063edc46cd29aa.png两个阶段。在第一阶段,dcf6590db403da5f3f5d2a291b94228d.png预测aea8f3ffd57d8f99b27088eaf78dc1a7.png个人的检测框和deae3ecacb44fe86e75f8801fa6d85c8.png个物体的检测框,因此产出95d629a4d5f67176e7047e5d6f22cf31.png个人-物对。实际上,真正有关系的人-物对只有25e1a7f7b997279f56325c55b0f4cbe3.png个,远远小于7cb62204a3094be979041887d314d86e.png。但是,在第二阶段,6b352dce68ca9a42cf3f11ba43f9e12d.png需要逐个遍历a6e826928faab69c409930f3a8efc20c.png个关系对并预测置信度。这种范式产生三个问题:一是产生了大量的额外计算消耗,f7a3620e8a850b3ffb628c97c0b35f03.png;二是正例负例不均衡导致模型容易对负例过拟合,尤其是容易误判为“no-interaction”类;三是ffc54299e1906e8e6ddb1e6acfe8b9bd.png7de0929ae35c8f552ecef2b089e30860.png采用相同的特征输入,但前者关注语义特征,而后者关注实体边缘特征,两者相互干扰。

一阶段范式或是以多任务方式直接提取人-物对和关系类别,即cac0de3c38cc065a40a044046cad0416.png;或是以并行结构分别提取人-物对和关系类别,再通过额外的offset预测来做关联,即6c4d407d93ec77e8cb6179427582f981.png。这两种一阶段方法,都端到端提取了人-物对,使得计算复杂度降为da328298f010fd76c95993dfdf1b8559.png,并直接提取有关系的人-物对对应的特征,从而降低了负例的干扰。但他们都受限于多任务学习导致的特征权衡问题,也就是使用统一的特征表达来处理非常不同的任务,导致任务之间性能受到干扰。

因此,我们针对这两种范式各自的优缺点,提出了一种如图1 (d)所示的新结构,Cascade Disentangling Network (CDN)。我们保留了一阶段范式的优点:直接预测有关系的人-物对;同时引入了两阶段范式的优势:把关系分类和人-物检测解耦。这是一种级联的一阶段范式,第一个解码器用于预测人-物对,即b6fb86d969d5b7e111de21cd338dfcdc.png,第二个独立的解码器用于预测关系类别,即6b0ae3fb68532cbcfb85eceae290ae6e.png

2a8d76b61e22d0e65f825f334a67bc52.png

图 2:两阶段范式与一阶段范式对比分析

方法

我们采用基于transformer的HOI检测器来实现我们的设计,并使用了DETR [1]的基础模型结构。在这个结构中,N层解码器把视觉编码器输出的特征9aaff447ab730e8e8fcd28e472658427.png,区分特征相对位置的向量04bcffccdcb4d59fd5410415fd9c461e.png,和一系列可学习的输入向量f432ad37b761e1be54cdb1e18a35b83c.png作为输入。通过自注意力(self-attention)和多头互注意力(multi-head co-attention)机制,以及包含分类或回归的目标训练任务,输入向量9e16d72fcf0aa555042c8bd91423d552.png被解码为含有位置或类别信息的输出向量ad1238d1c0a552ec1f94c15709f4fda9.png。每个解码器可以表示为:

2269512c4de1fb3ae80e1df23291b9a3.png

0f3f45574e6358d35ddf3f1e0b04df39.png

图3:Cascade Disentangling Network (CDN)框架图

我们提出的CDN结构框架如图3所示。首先,我们设计了Human-Object Pair Decoder (HO-PD)结构来把随机初始化的输入向量d8f79e02efc13ad4eb7fc4e8cb5388d9.png解码成输出向量6d746f9ad9b7b435605ff6891555189a.png。解码过程采用的训练任务为人的检测框回归,物体的检测框归回,物体的类别分类和是否有关系的置信度预测。在这种训练任务下,7bcb2e435781ae86dd324f3793e4b222.png可以表征一系列的人-物对。这个解码过程可以表示为:

 a8915e969d6840c97f5dc7928a893849.png

接下来,我们提出了一个独立的解码器对HO-PD输出的每个表征一个人-物对的向量c46e8c11b9c7b6cb38d63e51395d6ee6.png分配一个或多个关系类别。这其中一个关键设计是,关系解码器采用的输入向量5111828adb56b4379d547ad0496245e8.png不再是随机初始化的向量,而是HO-PD的输出向量f9ac5ad01a88c68892b46dd512445094.png,这样可以利用HO-PD训练得到的先验知识,对497aab16b1ed76e6ff3cbaf8d6594f21.png表征的每一个人-物对进行关系类别解码,通过关系分类训练任务,解码得到的输出向量0eac64dd234e1170f4b1f963b378f535.png可以表征关系类别。关系解码器可以表示如下。

 ecc20234440f34a69500bf16cd4caae0.png

在训练过程中,针对HOI数据存在的长尾类别分布问题,我们提出了一种动态加权机制。我们首先用常规的损失函数训练模型,然后固定视觉编码器的参数,用一个使用小学习率和动态加权策略的损失函数来单独训练两个级联的解码器。动态加权分别作用于物体类别ce6ef6bf13fefb239f949db17a73b09f.png和关系类别fa38a33e83cb60f35995836d1a3f4b45.png。在训练过程中,通过队列截断训练时间窗口来累计样本数,cf327175f1d23ef8848db7d84f9df4c9.png为每个类别累计的样本数,b13b636fde6a96ec253317664a828717.png为背景类累计的样本数。动态加权机制使用的类别权重表示如下:

806c5a89f3c03850156875ac425e6bc9.png

训练过程采用了基于集合匹配的方式,匹配过程对人-物对解码器HO-PD和关系解码器统一端到端匹配。损失函数如下,包含检测框回归55bd2ad196deaf6c852931c5fd201a22.png,检测框交并比7c6020d7843c07008ee4ff67e5ecccd6.png,交互关系置信度9d14b8de8ff4e62d73b652966634f96a.png,物体类别09bb72277d1227b5ba23998d3357aacc.png和关系类别677567727d41369b564356d81e9dddb8.png

374ccd007c35543d13c7bf20f1ec71e7.png

推理:HOI任务的后处理是把模型各模块预测的人、物体和关系组合成可信的<人,物,关系>三元组。在我们的CDN结构设计下,<人检测框,物体检测框,物体类别,交互关系置信度,关系类别>都在输出的向量4ca286c99fa551840f1847281a4f2a28.png205f582e51e879bdb04e380522f8de2a.png中得到了一一对应,于是,第个向量对应的三元组为907ad6e8b1cbe1cd1375a82f22b7ea37.png,其中三元组置信度为432e2557cead0d5c884a137b2aeecfee.png。对2592157cfd4983d40bebf4835a76c7d0.png进行降序排序并取89151695780df53b98857ed4fbf67af7.png个三元组后,我们设计了一种pair-wise non-maximal suppression (PNMS)策略,来成对的过滤人-物对检测框,计算过滤PIoU的公式如下。

1574d92ddc48f87af8990e6e39022e11.png

实验

我们首先验证了CDN中HO-PD模块的设计在特征上是否有效。如图4,我们使用HO-PD的人-物对替换经典两阶段方法iCAN [2]的通过检测框遍历组合出来的人-物对,在计算量从4e8d38ce157a0c1d76a57365917d18c3.png下降到36c040faff22eb92e0d5c1833e6f3ec6.png的情况下,mAP指标从15.37提升到了24.05,证明HO-PD的设计确实可以通过抑制负例,在节省计算量的同时提升人-物对提名的质量。进而,完整的CDN结构,在没有动态加权和PNMS机制加成的情况下,指标达到了30.96。图4右侧显示了特征图,HO-PD关注有关系的人和物体的边缘,例如<人,拿,蛋糕>三元组的人体和蛋糕边缘部位,而CDN的关系解码器更关注关系的语义特征,例如<人,骑,马>三元组的牵缰绳部位。

9c6145fb30cee5c281443f595238c982.png

图4:CDN方法验证及特征图分析

我们在HICO-DET数据集[3]上验证了三种结构的CDN:基于ResNet-50的3-layer解码器的CDN-S,基于ResNet-50的6-layer解码器的CDN-B,和基于ResNet-101的6-layer解码器的CDN-L。CDN表现超过了全部已知的两阶段和一阶段方法,在不使用人体关键点和语言特征等额外特征的情况下,最高指标达到了32.07 mAP。

cbd9c3ab10e54c4a469bd85367c398ec.png

图5:HICO-Det数据集实验结果

我们也在V-COCO数据集[4]上验证了CDN。CDN表现同样超过了全部已知的两阶段和一阶段方法,在没有人体关键点和语言特征等额外特征条件下,Scenario 1的role mAP达到了63.91,Scenario 2的role mAP达到了65.89。图6右侧表格中的消融实验,验证了CDN主体结构设计,以及动态加权机制和PNMS机制的有效性。

b61bfdd6a4dda05ee950ac10884ab8db.png

图6:V-COCO数据集实验结果及消融实验

总结与展望

本文在详细分析HOI检测任务现有的两阶段范式和一阶段范式的优缺点之后,提出了以级联方式解耦人-物对检测和关系分类的CDN方法,在保持一阶段范式的计算效率和直接定位有关系的人-物对来提升精度的同时,引入了两阶段范式的回归和分类解耦的思想,在HOI任务上达到了性能SOTA。

同时,我们指出了把适用于两阶段范式的种种创新方法引入到一阶段范式中,是一种不错的提升性能的解决方案。我们在文中只实施了一种引入两阶段范式的核心解耦思想到一阶段范式中的基于transformer的HOI方案,未来还可以做更多的尝试。

参考文献

[1] End-to-end object detection with transformers. In ECCV, 2020.

[2] ICAN: Instance-centric attention network for human-object interaction detection. In BMVC, 2018.

[3] Learning to detect human-object interactions. In WACV, 2018.

[4] Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看71a895cdad017e36e2997f5a150575f9.gif

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值