PVIC:Exploring Predicate Visual Context in Detecting Human-Object Interactions

Exploring Predicate Visual Context in Detecting Human-Object Interactions

2023年的ICCV
paper:https://paperswithcode.com/paper/exploring-predicate-visual-context-in
code:https://github.com/fredzzhang/pvic

代码

论文代码在8张V100上训练了30个epoch,batchsize为16
目前自己跑,在第2个epoch时经常报损失NaN然后停止,待解决中。。。

论文

太长不看


作者设计了新的Query向量取代了之前DETR中的随机初始化的Query,就是采用空间先验信息+内容先验信息进行处理,然后融合得到了新的Query。然后引入了一套新的位置编码(个人理解),然后在此基础上做了些实验来验证,并尝试了多种不同的组合以及使用最新的HDETR来进行实验。

摘要


最近,DETR框架已成为人-物交互(HOI)研究的主要方法。特别是,基于两级变压器的HOI检测器是性能最好、训练效率最高的方法之一。然而,这些通常会将HOI分类限制在缺乏细粒度上下文信息的物体特征上,避免姿势和方向信息,而倾向于关于物体身份和框端的视觉线索。这自然会阻碍对复杂或模糊交互的识别。在这项工作中,我们通过可视化和精心设计的实验来研究这些问题。因此,我们研究了如何最好地通过交叉注意重新引入图像特征。通过改进的查询设计,对键和值的广泛探索,以及框对位置嵌入作为空间指导,我们的模型具有增强的谓词视觉上下文(PViC),在HICO-DET和V-COCO基准测试中优于最先进的方法,同时保持较低的训练成本。

前言


检测人-物交互(HOI)是定位和识别交互的人-物对的任务。它扩展了对物体的检测,包括它们之间的关系,并促进了对视觉场景的更深层次的理解。人-对象交互检测的最新发展在很大程度上遵循了由检测变压器(DETR)引入的编码器-解码器风格,

其中可学习的查询随机初始化高斯噪声,并逐步解码为所需的人-谓词-对象三元组。这种单阶段检测器需要预先训练的DETR权值进行初始化,以促进稳定收敛。

正如我们将通过经验证明的那样,预训练的编码器特征过度拟合对象线索,并且缺乏识别人与对象之间的必要信息。

在这里插入图片描述
如上图所示,作者通过特征可视化后发现DETR和QPIC的注意力并没有集中在关键点上。

这意味着变压器编码器权重需要显著改变,以产生用于此类任务的判别特征。再加上需要重新使用解码器来检测HOI三胞胎而不是一元对象,这导致了长时间的训练计划,通常达到数百个GPU小时。另一方面,两阶段检测器采用不同的方法,其中对象检测器被微调然后冻结。这些方法的重点是提取和利用驻留在冻结探测器的丰富信息。当然,两级检测器需要更少的时间和资源来训练,促进更多的模型分析和实验。

当前最先进的两级检测器UPT采用了一个微调的DETR检测器,并对一元(对象)和成对(人-对象)令牌执行自关注。尽管它的整体性能高,成本低,但它只利用来自冻结探测器的物体特征,辅以手工制作的空间特征,来构建最终的表征。

UPT的失败案例通常需要更丰富的可视化上下文。特别是,我们确定了粗对象特征缺乏的两种类型的上下文:关于主体或对象的细粒度信息,例如人体姿势,以及关于场景中其他相关上下文的信息,例如交互中涉及的另一个对象。为了解决上述问题,我们研究了如何丰富人-物对表示的上下文线索。我们的贡献是双重的:
总结当前两阶段模型中缺乏的两种视觉环境,以及由此造成的损害。因此,我们开发了一个具有轻量级解码器的高级两级检测器,其中我们用更精简的架构改进查询设计,探索键/值的各种选择和组合,并引入针对边界框对定制的位置嵌入。特别是,我们证明了位置嵌入在交叉注意中起空间引导作用,并通过丰富的可视化揭示了这一机制

总结,两个创新:一是重新设计了一个Query,之前的是随机初始化的。二是重新设计了位置编码

显式查询


在检测变压器中,查询用高斯噪声随机初始化,并随着训练的进行学习表示空间先验(盒中心位置、宽度和高度)。作者将此类查询称为隐式查询,通常用于单级HOI检测器。

对于两阶段的对等体,由于检测中的信息丰富,不需要这样的学习查询。相反,查询是显式的人-对象对表示,注入了空间和内容先验。我们将它们称为显式查询。

在这里插入图片描述
如图所示,显示查询就是根据空间先验信息和目标先验信息来共同构建
为了更好的促进自注意力在交互对象之间的信息流动,作者在空间坐标和对象特征之间加入了位置编码
在这里插入图片描述
对于空间先验信息,采用目标检测器输出的框的特征来构建,然后结合目标先验信息输入到transformer中,最后再融合一下经过MLP得到Query
在这里插入图片描述

位置嵌入作为指导


尽管人-物对的显式查询表示已经包含了空间先验,但位置嵌入仍然是至关重要的,因为它们在注意权重上起着空间偏差的作用。这在交叉注意力的情况下尤为重要。为了阐明它的影响,让我们将键和查询表示为kc和qc,并将它们各自的位置嵌入表示为kp和qp。为简单起见,让我们省略线性变换和归一化。点积注意力计算为
在这里插入图片描述
直观地说,RHS上的第一项衡量的是键的内容特征(图像特征)之间的相似性。更具体地说,对于具有归一化空间索引(i, j)的图像标记和具有归一化坐标(x, y)的2D点,最后一项可以展开为坐标之间的简单相似性和
在这里插入图片描述
作为显式查询的一个优势,框坐标的可用性允许我们使用框中心来构建位置嵌入,直接在相应位置的注意图中添加偏差。上述位置嵌入的一个缺点是缺乏关于盒子尺寸的信息。尽管随后的线性变换有可能转移和变形点积注意力,但Liu等人表明,位置嵌入可以用框的宽度和高度进行调制,从而节省了网络学习相关变换的时间。对于边界框b = [x, y, w, h],我们遵循他们的做法,在水平和垂直方向上使用归一化的宽度和高度作为不同的温度参数,用于随后的softmax归一化,导致注意力权重的偏差项如下
在这里插入图片描述
其中wrf和href是使用双层MLP从盒子特征中学习到的参考值,如下所示
在这里插入图片描述
其中σ为s型函数,f为从目标检测器得到的盒状外观特征。为了将这种用法扩展到边界框对,我们将两个框中心的位置嵌入连接起来。两个位置嵌入的连接相当于在softmax归一化之前对两个框的注意力权重(Eq. 4)进行空间求和。

对于显式查询,自我注意主要作为一种抑制形式。交互的人-物对往往是最显著的,通过注意机制抑制非交互的人-物对。另一方面,位置嵌入增加了一个归纳偏置,使得靠近的框对更加相互关注。虽然这种诱导偏差在交叉注意中是直观的,但它并不能反映人-物对相互作用的方式。由于我们没有观察到任何改善,我们没有在人-物对之间的自我注意中使用位置嵌入。相比之下,一元对象之间的自关注确实受益于位置嵌入,因为交互对象倾向于一起出现,并且经常共享一个相交的区域。因此,这种归纳偏差促进了对近实例的注意,并有助于训练过程

实验


在这里插入图片描述
在表1中,我们展示了将交叉注意与编码器特性作为键/值引入到一起只会带来最小的改进。

在这里插入图片描述
我们在表2中给出了相关的发现。为了公平起见,当使用C3和C4特征(变体E1, E2)时,我们添加了一个相当于缺失卷积阶段的特征头,并观察到C5特征仍然产生最佳性能。我们还研究了图7所示的主干和编码器特性的组成。结果(F变量)表明,虽然编码器特征的增加有利于底层骨干特征,但它并没有向C5特征引入正交信息。此外,对于G变体,我们训练了一个特征金字塔网络,将C5特征中的语义传播到更低的层次。结果表明,高分辨率的特征虽然有助于目标检测和分割,但不利于hoi的识别。我们进一步研究了添加注意层来细化骨干特征(H变体),并观察到自注意和窗口注意的相似性能。由于复杂度较低,我们在随后的模型变体中使用了窗口注意。我们没有观察到额外的注意力层会显著提高性能(H2, H4)。

在这里插入图片描述
接下来,我们删除表3中的查询组件。以变量H3为参照,展示了物体自注意和物体特征的模态融合对空间特征的影响。重要的是,我们展示了一个带有盒位置嵌入的普通变压器编码器在UPT中实现了与修改后的编码器相当的性能,验证了我们对这个自定义层的删除。

在这里插入图片描述
最后,我们在表4中展示了调制位置嵌入在交叉注意中的有效性以及解码器的缩放。值得注意的是,使用加性位置嵌入(变体K1)对模型没有帮助。这是由于Eq. 2中两个交叉项引入的噪声。通过连接位置嵌入(K2)来消除交叉项会产生轻微的改善,而调制位置嵌入会产生额外的改善。类似于键和值的特征头,解码器带来的改进在两层后饱和,可能是由于使用了冻结特征。总之,我们观察到我们的模型(变体L1)和以前最先进的UPT(变体C)之间在罕见类(5 mAP)方面有了非常显著的改进。这与我们的理解一致,即通过交叉注意引入的上下文线索极大地有利于更模糊的交互,通常是HICO-DET数据集中的罕见交互

实验效果比对


在这里插入图片描述
我们报告了具有两个主干的模型的性能,以演示其可伸缩性。对于目标检测器,我们使用DETR和最新的H-DETR,显示了我们的方法与检测器无关的本质。
如表5所示,我们的方法已经使用了ResNet50尽管它使用了更重的ResNet101和特征扩展,但其性能比以前最先进的两级检测器UPT高出2.5 mAP。此外,与GEN-VLKT相比,GEN-VLKT从数百万张图像(CLIP)上训练的视觉和语言模型中提取特征,我们的方法在相同的ResNet50主干下实现了更高的性能。使用更强的检测器和主干,即H-DETR,我们的方法获得了显着的性能提升。这突出了两级检测器的一个巨大优势,即它们可以直接受益于目标检测的独立进展。

结论


在本文中,我们分析了现有两阶段HOI检测器中使用的视觉特征,并得出结论,它们的主要缺点是缺乏相关的上下文信息,因为它们专门用于定位任务。因此,我们提出了一种改进的设计,通过交叉注意将图像特征重新引入到人-物对表示中。为此,我们对键/值的选择进行了广泛的实验,并引入框对位置嵌入作为空间引导,并将注意力机制的影响可视化。与之前的两阶段方法相比,我们简化了体系结构,减少了对定制组件的需求。我们的方法在相关基准上实现了最先进的性能,特别是在与分类相关的细粒度视觉特征(如人体姿势)和附加上下文(如交互中涉及的另一个对象)的改进。

  • 21
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值