CVPR 2020 | 旷视研究院提出新型人-物交互检测框架，实现当前最佳

旷视

于 2020-06-05 15:37:00 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/Megvii_tech/article/details/106581148

版权

旷视研究院在CVPR 2020发表论文，提出了一种新型人-物交互检测算法，通过交互点检测和向量匹配，实现当前最佳的交互检测性能。该方法在V-COCO和HICO-DET数据集上取得显著效果，优于现有以实例为中心的方法。

摘要由CSDN通过智能技术生成

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布，旷视研究院 16 篇论文被收录（其中含 6篇 Oral 论文），研究领域涵盖物体检测与行人再识别（尤其是遮挡场景），人脸识别，文字检测与识别，实时视频感知与推理，小样本学习，迁移学习，3D感知，GAN与图像生成，计算机图形学，语义分割，细粒度图像，对抗样本攻击等众多领域，取得多项领先的技术研究成果，这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是旷视CVPR2020论文系列解读第14篇，本文提出一种新型人-物交互检测算法，可直接把人-物交互关系检测为一系列的交互点，进一步预测朝向人和物体中心的交互向量；接着，这些交互点可以配对组合人与物体的检测结果，以生成最终的交互预测。据知，本文首次提出把人-物交互检测拆分为关键点检测和组合问题，该方法在两大流行数据集V-COCO和HICO-DET做了全面实验，均取得先进的性能。

导语

对图像内容超越实例层面的语义理解，已成为计算机视觉领域基本问题之一。人-物交互（HOI）检测属于视觉关系检测的一种，该任务不仅定位图像中的人和物体，还需要推理出人和物体之间的交互关系，比如「吃苹果」、「驾驶汽车」等。

由于一张图像可能包含多个人做同一类交互，一个人同时交互多个物体、多个人共享同一个交互物体，还可能存在细粒度交互的情况，导致HOI检测颇具挑战性。这些复杂而多元的交互场景给HOI检测方案的设计带来了巨大困难。

大多数现有方法以三元组（人，动作，物体）的形式检测人-物交互，并将该问题分解成两部分：物体检测和交互识别。物体检测方面，通过一个预训练的物体检测器检测出人和物体；对于交互识别，相关文献提出了若干个策略。

图1：大多数现有方法（a）与本文方法（b）示意图对比

现有大多数HOI检测方法使用多支路架构（见图1（a））识别交互关系。多支路架构通常包含三个独立的支路：人体支路、物体支路和配对支路。人体和物体支路分别编码人和物的外观特征，而配对支路旨在编码人和物的空间关系。接着，三个支路各自的得分进行融合，用于交互识别。

尽管提高了HOI检测性能，基于上述多支路架构的当前最佳方法是计算昂贵的。训练时，这些以实例为中心的方法需要配对所有的人和物体，来学习正/负人-物对。这意味着推理时间会随着人-物实例数量呈二次方增长，因为所有的人-物对都需要经过一遍网络，以获得最后的交互得分。

除了计算昂贵之外，这些方法还明显依赖于外观特征和一个简单的配对支路，其中配对支路是把两

关注