用于实时人与物体交互检测的并行点检测和匹配

论文来自https://arxiv.org/abs/1912.12898
英语渣渣的阅读和翻译


摘要

  • 我们提出了一种单阶段的人与对象交互(HOI)检测方法,该方法在单个Titan XP GPU上以37fps的速度胜过HICO-DET数据集上的所有方法。这是是第一种实时的HOI检测方法。常规的HOI检测方法包含两个阶段,即人为对象提案的生成和提案的分类。它们的有效性和效率受到顺序和单独的体系结构的限制。本文提出了一种并行点检测与匹配(PPDMHOI检测框架。在PPDM中,HOI定义为三元组<人的点,交互点,对象点>。人和物体点是检测框的中心,交互点是人和物体点的中点。PPDM包含两个并行分支,即点检测分支和点匹配分支。点检测分支预测三个点。同时,点匹配分支预测了从交互点到其对应的人和物点的两个位移。来自同一交互点的人类点和对象点被视为匹配对。在我们新颖的并行框架中,交互点隐式地为人和物体的检测提供了上下文和规则化。抑制了不太可能形成有意义的HOI三元组的独立检测框,从而提高了HOI的检测精度。此外,人和物体检测盒之间的匹配仅适用于过滤后有限数量的候选交互点,从而节省了大量的计算成本。此外,我们建立了一个新的名为HOI-A的面向应用程序的数据集1,它是对现有数据集的很好补充。

图1

图1.HICO-Det测试集上的mAP与推断时间。我们的PPDM-DLA的推理速度为37fps(0.027秒),优于最新技术,这是第一种实时HOI检测方法。我们的PPDM-Hourglass比现有技术以更快的速度实现了 4.27 % 4.27\% 4.27%mAP改善。

图2

图2.PPDM包含两个平行分支。在点检测分支中,检测到的人/物体框以中心点,宽度和高度来表示。而且,交互点,即人和物体点的中心点也被定位。同时,在点匹配分支中,估计了从每个交互点到人/物体的两个位移。源自同一交互点的人类点和物体点被视为匹配对。

1 引言

  • 人与物体交互(HOI)检测[30、11、10、9、12、16、22]最近受到越来越多的关注。给定图像,HOI旨在检测三元组<人,交互,对象>。与一般的视觉关系检测[19、29、20、13、32]不同,三元组的对象固定为人,而交互是动作。HOI检测是迈向以人为中心的场景的高级语义理解的重要一步。它具有许多应用程序,例如活动分析,人机交互和智能监控。
  • 常规的HOI检测方法[2、22、12、16、26]主要包括两个阶段。第一阶段是人-物体提案网络的生成。预先训练好的检测器[8、23]用于定位人和物体。然后通过将过滤后的 M M M个人类框和 N N N个物体框成对地进行组合,生成 M × N M\times N M×N个人-物体的提案。第二阶段是提案分类,它可以预测每个人-物体提案的交互。二阶段方法的有效性和效率的局限性主要是因为它们两个阶段是相继和分开的。提案生成阶段完全基于对象检测的置信度,每个人/物体的提案都是独立生成的。没有考虑在第二阶段合并两个提案以形成有意义的HOI三元组的可能性。因此,所生成的人-物体提案可能具有相当较低的质量。此外,在第二阶段,所有的人-物体提案都需要进行线性扫描,而其中只有少数有效。额外的计算成本很大,因此,我们认为需要非顺序和高度耦合的框架。
  • 我们提出了一个并行HOI检测框架,并将HOI检测重新定义为点检测和匹配问题。如图2所示,我们将一个框表示为一个中心点和相应的大小(宽度和高度)。此外,我们将交互点定义为人和物体中心点的中点。为了使每个交互点与人类点和对象点匹配,我们设计了从交互点到相应的人类和物体点的两个位移。基于新颖的重构,我们设计了一种新颖的单级框架并行点检测和匹配(PPDM),它将HOI检测的复杂任务分解为两个更简单的并行任务。PPDM由两个并行分支组成。第一个分支是点检测,它估计三个中心点(交互点、人和物体的点),相应的大小(宽度和高度)和两个局部偏移(人和物体的点)。可以将交互点视为为人类和物体检测提供上下文信息。换句话说,估计交互点会隐式增强对人和物体的检测。第二个分支是点匹配,估计了从交互点到人和物体点的两个位移。源自相同交互点的人和物体点被视为匹配。在新颖的并行体系结构中,点检测分支估计了交互点,从而为人和物体的检测隐式提供了上下文和规范化。抑制了不太可能形成有意义的HOI三元组的独立检测框,而更有可能形成的会被增强。它不同于人-物体提案生成阶段的二阶段方法,在该方法中,所有检测到的人/物体框都无区别地形成了人-物体提案并喂给第二阶段。此外,在点匹配分支中,仅在有限数量的已被筛选的候选交互点周围进行匹配,这节省了大量计算成本。相反,在二阶段方法的提案分类阶段,所有的人-物体提案都需要分类。在公共基准HICO-Det[2]和我们新收集的HOI-A数据集上的实验结果都表明,PPDM在准确性和速度方面都优于最新方法。
  • 现有的数据集,例如HICO-Det[22]和VCOCO[11],极大地促进了相关研究的发展,这些数据集非常通用。然而,在实际应用中,需要特别注意几个有限的、频繁的HOI类别。为此,我们收集了一个新的具有以下功能的人-物体交互应用数据集(HOI-A):1)特别选择了10种具有广泛应用价值的HOI类别,例如抽烟和乘骑。2)类别内的巨大变化,包括每个类别的各种照明和不同的人体姿势。HOI-A更受应用程序驱动,可以作为现有数据集的很好补充。
  • 我们的贡献概括如下:1)我们将HOI检测任务重新设计为点检测和匹配问题,并提出了一种新颖的一阶段PPDM解决方案。2)PPDM是第一种在HICO-DetHOI-A基准测试上实现实时性且优于最新技术的HOI检测方法。3)收集了大规模的面向应用的HOI检测数据集,以补充现有数据集。源代码和数据集都将被发布以促进相关研究。

2 相关工作

  • HOI检测方法,现有的HOI检测方法大致可分为两个阶段:第一阶段,使用物体检测器[23]来定位人和物体;第二阶段,将检测到的人与物体配对,并将其特征输入到分类网络中,以预测人与物体之间的相互作用。当前的工作更加注重探讨如何改进第二阶段。最近的工作旨在通过获取上下文信息[7、27]或人类结构信息[26、6、5、33]来了解HOI。一些工作[22、28、33]将第二阶段表述为图推理问题,并使用图卷积网络来预测HOI
  • 以上的方法都是基于提案的,因此其性能受到提案质量的限制。另外,现有方法必须在提案生成和特征提取过程中花费大量计算成本。基于这些缺点,我们提出了一种新颖的单阶段且无提议的框架来检测HOI
  • HOI检测数据集,主要有两个常用的HOI检测基准:VCOCO[11]和HICO-Det[2],以及以人为中心的关系检测数据集:HCVRD[36]。VCOCO是一个相对较小的数据集,它是MSCOCO[18]的子集,包括10346个图像以及基于COCO注释的26个动作。HICO-Det是一个大规模的通用HOI检测数据集,包括47776张图像,其中包含117个动词和80个对象类别(与COCO相同)。HCVRD是从通用视觉关系检测数据集Visual Genome[14]中收集的。它具有52855个图像,927个谓词类别和1824种物体。比较前两个只关心人类行为的HOI检测数据集,HCVRD关注更一般的以人为中心的关系,例如空间关系,拥有关系。
  • 先前的HOI检测数据集主要集中于常见和一般动作。从实践角度来看,我们建立了一个新的HOI-A数据集,其中包括约38K图像,但仅以有限的典型种类的具有实际意义的动作进行了注释。

图3

图3.拟议的PPDM框架概述。我们首先应用关键点热力图预测网络,例如Hourglass-104DLA-34,以从图像中提取外观特征。a)点检测分支:基于提取的视觉特征,我们利用三个卷积模块来预测交互点,人体中心点和物体中心点的热力图。另外,要生成最终的框,我们对二维尺寸和局部偏移量进行回归。b)点匹配分支:此分支的第一步是回归交互点到人点和物体点的位移。根据预测的点和位移,第二步是将每个交互点与人点和物体点进行匹配,以生成一组三元组。

3 并行点检测与匹配

3.1 综述
  • HOI检测的目标是估计HOI三元组<人,交互,物体>,它由主题框和类,人体动作类和物体框和类组成。我们将HOI检测的复杂任务分解为两个更简单的并行任务,可以将其组合起来以形成最终结果。提出的并行点检测和匹配(PPDM)方法的框架如图3所示。PPDM的第一个分支是点检测。它估计人和物体的中心点,相应的大小(宽度和高度)以及局部偏移。中心点,大小和偏移量共同代表了一些候选框。此外还估计了被定义为相应的<人体中心点,物体中心点>对的中点的交互点。PPDM的第二个分支是点匹配。估计交互点与相应的人和物体点之间的位移。源自同一交互点的人类点和物体点被视为匹配对。
3.2 点检测
  • 点检测分支估计人体框、物体框和交互点。一个人体框表示为它的中心点 ( x h , y h ) ∈ R 2 (x^h,y^h)\in \mathbb{R}^2 xh,yhR2,相应的大小(宽度和高度) ( w h , h h ) ∈ R 2 (w^h,h^h)\in \mathbb{R}^2 wh,hhR2以及局部点偏移 δ c h ∈ R 2 \delta c^h \in \mathbb{R}^2 δchR2恢复由输出步长引起的离散化误差。对象框的表示方式与此类似。此外,我们将交互点 ( x a , y a ) ∈ R 2 (x^a, y^a)\in \mathbb{R}^2 xa,yaR2定义为成对的人体点和物体点的中点。考虑到交互点的接收域足够大来包含人和物体,因此可以基于 ( x a , y a ) (x^a,y^a) xa,ya的特征来估计人的动作 a a a。实际上,当数据集中有 M M M个人时,每个人体框都表示为 ( x i h , y i h ) , i ∈ [ 1 , M ] (x^h_i,y^h_i),i\in[1,M] xih,yih,i[1,M]。为了便于描述,我们在不产生混乱的情况下省略下标 i i i,类似的省略也适用于 ( x o , y o ) (x^o,y^o) xo,yo ( x a , y a ) (x^a,y^a) xa,ya
  • 在图3中,输入图像 I ∈ R H × W I \in \mathbb{R}^{H \times W} IRH×W被喂给特征提取器以产生特征特征 V ∈ R H d × W d V \in \mathbb{R}^{\frac{H}{d} \times \frac{W}{d}} VRdH×dW,其中的 W W W H H H是输入图像的宽度和高度, d d d是输出步长。点的热力图是低解析度的,因此我们还计算了低解析度的中心点。给定一个真实的人体点 ( x h , y h ) (x^h,y^h) xh,yh,那么相应的低解析的点 ( x ~ h , y ~ h ) = ( ⌊ x h d ⌋ , ⌊ y h d ⌋ ) (\tilde{x}^h, \tilde{y}^h)=(\left \lfloor \frac{x^h}{d} \right \rfloor,\left \lfloor \frac{y^h}{d} \right \rfloor) x~h,y~h=dxh,dyh。低解析真实的物体点 ( x ~ o , y ~ o ) (\tilde{x}^o,\tilde{y}^o) x~o,y~o也能以相同的计算方法得出。基于低解析的人和物体点,可以定义真实的交互点为 ( x ~ a , y ~ a ) = ( ⌊ x ~ h + x ~ o 2 ⌋ , ⌊ y ~ h + y ~ o 2 ⌋ ) (\tilde{x}^a,\tilde{y}^a)=(\left \lfloor \frac{\tilde{x}^h+\tilde{x}^o}{2} \right \rfloor,\left \lfloor \frac{\tilde{y}^h+\tilde{y}^o}{2} \right \rfloor) x~a,y~a=2x~h+x~o,2y~h+y~o
  • 点的位置损失,直接来检测一个点是困难的,因此我们采用关键点估计方法[25]将点映射到具有高斯核的热力图中,从而将点检测转换为热力图估计任务。三个真实的低解析度的点 ( x h , y h ) , ( x o , y o ) (x^h,y^h),(x^o,y^o) xh,yhxo,yo ( x a , y a ) (x^a,y^a) xa,ya被映射到三个高斯热力图,包括人体点热力图 C ~ h ∈ [ 0 , 1 ] H d × W d \tilde{C}^h\in [0,1]^{\frac{H}{d}\times \frac{W}{d}} C~h[0,1]dH×dW,物体点热力图 C ~ o ∈ [ 0 , 1 ] T × H d × W d \tilde{C}^o\in [0,1]^{T\times \frac{H}{d}\times \frac{W}{d}} C~o[0,1]T×dH×dW和交互点热力图 C ~ a ∈ [ 0 , 1 ] K × H d × W d \tilde{C}^a\in [0,1]^{K\times \frac{H}{d}\times \frac{W}{d}} C~a[0,1]K×dH×dW,其中 T T T是物体的种类数量, K K K是交互类别的数量。要注意的是,在 C ~ o \tilde{C}^o C~o C ~ a \tilde{C}^a C~a中,只有与特定物体类别和人类行为相对应的通道为非零。通过在特征图 V V V上添加三个相应的卷积块来生成三个热力图,每个卷积块由具有ReLU 3 × 3 3\times 3 3×3卷积层,随后的 1 × 1 1\times 1 1×1卷积层和Sigmoid组成。
  • 对这三个热力图,我们都应用了一个逐元素的焦点损失[17]。例如,给一个估计的交互点热力图 C ^ a \hat{C}^a C^a和相应的真实热力图 C ~ a \tilde{C}^a C~a,这个损失函数就是:
    L a = − 1 N ∑ k x y { ( 1 − C ^ k x y a ) α log ⁡ ( C ^ k x y a ) i f C ~ k x y a = 1 ( 1 − C ~ k x y a ) β ( C ^ k x y a ) α log ⁡ ( 1 − C ^ k x y a ) o t h e r w i s e (1) L_a=-\frac{1}{N}\sum_{kxy} \begin{cases} (1-\hat{C}^a_{kxy})^\alpha \log(\hat{C}^a_{kxy}) & {\rm if} & \tilde{C}^a_{kxy}=1 \\ (1-\tilde{C}^a_{kxy})^\beta(\hat{C}^a_{kxy})^\alpha \log(1-\hat{C}^a_{kxy}) & {\rm otherwise} \end{cases}\tag{1} La=N1kxy{(1C^kxya)αlog(C^kxya)(1C~kxya)β(C^kxya)αlog(1C^kxya)ifotherwiseC~kxya=1(1)
    其中 N N N等于图像中交互点(HOI 三元组)的数量, C ^ k x y a \hat{C}^a_{kxy} C^kxya是在预测的热力图中类别 k k k在位置 ( x , y ) (x,y) (x,y)处的值。按照[15、35、4]中的默认设置,将 α \alpha α设置为2,将 β \beta β设置为4。人体点和物体点的损失 L p L_p Lp L o L_o Lo可以使用类似的方法来计算。
  • 尺寸和偏移损失,除了中心点,还需要框的大小和中心点的局部偏移量来形成人/物体框。将四个卷积块添加到特征图 V V V,以分别估计2D尺寸和人与物体框的局部偏移。每个卷积块包含一个带ReLU 3 × 3 3\times 3 3×3卷积层和一个 1 × 1 1\times 1 1×1的卷积层。
  • 在训练过程中,我们仅计算真实人体点 ( x ~ h , y ~ h ) (\tilde{x}^h,\tilde{y}^h) (x~h,y~h)和物体点 ( x ~ o , y ~ o ) (\tilde{x}^o,\tilde{y}^o) (x~o,y~o)的每个位置的L1损失,而忽略所有其他位置。我们以局部偏移的损失函数为例,而尺寸回归损失 L w h L_{wh} Lwh的定义与之相似。对于人体点 ( x ~ h , y ~ h ) (\tilde{x}^h,\tilde{y}^h) (x~h,y~h)的真实局部偏移量定义为 ( δ ~ ( x ~ h , y ~ h ) x , δ ~ ( x ~ h , y ~ h ) y ) = ( x h d − x ~ h , y h d − y ~ h ) (\tilde{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)},\tilde{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)})=(\frac{x^h}{d}-\tilde{x}^h,\frac{y^h}{d}-\tilde{y}^h) (δ~(x~h,y~h)x,δ~(x~h,y~h)y)=(dxhx~h,dyhy~h)。因此,损失函数 L o f f L_{off} Loff是人体框损失 L o f f h L^h_{off} Loffh和物体框损失 L o f f o L^o_{off} Loffo之和。
    L o f f = 1 M + D ( L o f f h + L o f f o ) (2) L_{off}=\frac{1}{M+D}(L^h_{off}+L^o_{off}) \tag{2} Loff=M+D1(Loffh+Loffo)(2)
    L o f f h = ∑ ( x ~ h , y ~ h ) ∈ S ~ h ( ∣ δ ~ ( x ~ h , y ~ h ) x − δ ^ ( x ~ h , y ~ h ) x ∣ + ∣ δ ~ ( x ~ h , y ~ h ) y − δ ^ ( x ~ h , y ~ h ) y ∣ ) (3) L^h_{off}=\sum_{(\tilde{x}^h,\tilde{y}^h)\in \tilde{S}^h}(\left| \tilde{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)}- \hat{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)}\right|+\left| \tilde{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)}- \hat{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)} \right|) \tag{3} Loffh=(x~h,y~h)S~h(δ~(x~h,y~h)xδ^(x~h,y~h)x+δ~(x~h,y~h)yδ^(x~h,y~h)y)(3)
    其中 S ~ h \tilde{S}^h S~h S ~ o \tilde{S}^o S~o表示训练集中真实的人与物体点集。 M = ∣ S ~ h ∣ M=|\tilde{S}^h| M=S~h D = ∣ S ~ o ∣ D=|\tilde{S}^o| D=S~o是人体点和物体点的数量。请注意, M M M不一定要等于 D D D,例如一个人可以对应多个行为和物体。 L o f f o L^o_{off} Loffo可以类似地用等式3来定义。
3.3 点匹配
  • 点匹配分支以交互点为桥梁,将人体框和物体框配对。更具体地说,将交互点视为锚点。两个位移 d a h = ( d x a h , d y a h ) d^{ah}=(d^{ah}_x,d^{ah}_y) dah=(dxah,dyah) d a o = ( d x a o , d y a o ) d^{ao}=(d^{ao}_x,d^{ao}_y) dao=(dxao,dyao),即估计交互点与人/物体之间的位移。粗略的人体点和物体点就分别是 ( x a , y a ) (x^a,y^a) (xa,ya)加上 d a h d^{ah} dah d a o d^{ao} dao
  • 我们提出的位移分支由两个卷积模块组成。每个模块由一个带ReLU 3 × 3 3\times 3 3×3卷积层和一个 1 × 1 1\times 1 1×1卷积层组成,对象和对象位移图的大小均为 2 × H d × W d 2\times \frac{H}{d}\times \frac{W}{d} 2×dH×dW
  • 位移损失,为了训练位移分支,我们对每个交互点应用了 L 1 L1 L1损失。可以通过 ( d ~ ( x ~ a , y ~ a ) h x , d ~ ( x ~ a , y ~ a ) h y ) = ( x ~ a − x ~ h , y ~ a − y ~ h ) (\tilde{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)},\tilde{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)})=(\tilde{x}^a-\tilde{x}^h,\tilde{y}^a-\tilde{y}^h) (d~(x~a,y~a)hx,d~(x~a,y~a)hy)=(x~ax~h,y~ay~h)计算从位于 ( x ~ a , y ~ a ) (\tilde{x}^a,\tilde{y}^a) (x~a,y~a)的交互点到相应人体点的真实位移。在 ( x ~ a , y ~ a ) (\tilde{x}^a,\tilde{y}^a) (x~a,y~a)预测的位移是 ( d ^ ( x ~ a , y ~ a ) h x , d ^ ( x ~ a , y ~ a ) h y ) (\hat{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)},\hat{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)}) (d^(x~a,y~a)hx,d^(x~a,y~a)hy)。位移损失定义为:
    L a h = 1 N ∑ ( x ~ a , y ~ a ) ∈ S ~ a ( ∣ d ^ ( x ~ a , y ~ a ) h x − d ~ ( x ~ a , y ~ a ) h x ∣ + ∣ d ^ ( x ~ a , y ~ a ) h y − d ~ ( x ~ a , y ~ a ) h y ∣ ) (4) L_{ah}=\frac{1}{N}\sum_{(\tilde{x}^a,\tilde{y}^a)\in \tilde{S}^a}(|\hat{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)}-\tilde{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)}|+|\hat{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)}-\tilde{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)}|)\tag{4} Lah=N1(x~a,y~a)S~a(d^(x~a,y~a)hxd~(x~a,y~a)hx+d^(x~a,y~a)hyd~(x~a,y~a)hy)(4)
    其中 S ~ a \tilde{S}^a S~a表示训练集中的真实交互点集。 N = ∣ S ~ a ∣ N=|\tilde{S}^a| N=S~a是交互点的数量。从交互点到物体点的位移损失函数 L a o L_{ao} Lao具有相同的形式。
  • 三元组匹配,考虑两个方面来判断人/物体是否可以与交互点匹配。人/物体需要:1)与由交互点加上位移生成的粗略的人/物体点接近;2)具有较高的置信度。在此基础上,对于检测到的交互点 ( x ^ a , y ^ a ) (\hat{x}^a,\hat{y}^a) (x^a,y^a),我们通过等式5对检测到的人体点集 S ^ h \hat{S}^h S^h中的点进行排序,并选择最佳点。
    ( x ^ o p t h , y ^ o p t h ) = arg min ⁡ ( x ^ h , y ^ h ) ∈ S ^ h 1 C ( x ^ h , y ^ h ) h ( ∣ ( x ^ a , y ^ a ) − ( d ^ ( x ^ a , y ^ a ) h x , d ^ ( x ^ a , y ^ a ) h y ) − ( x ^ h , y ^ h ) ∣ ) (5) (\hat{x}^h_{opt},\hat{y}^h_{opt})=\argmin_{(\hat{x}^h,\hat{y}^h)\in \hat{S}^h} \frac{1}{C^h_{(\hat{x}^h,\hat{y}^h)}}(|(\hat{x}^a,\hat{y}^a)-(\hat{d}^{hx}_{(\hat{x}^a,\hat{y}^a)},\hat{d}^{hy}_{(\hat{x}^a,\hat{y}^a)})-(\hat{x}^h,\hat{y}^h)|)\tag{5} (x^opth,y^opth)=(x^h,y^h)S^hargminC(x^h,y^h)h1((x^a,y^a)(d^(x^a,y^a)hx,d^(x^a,y^a)hy)(x^h,y^h))(5)
    其中 C ( x ^ h , y ^ h ) h C^h_{(\hat{x}^h,\hat{y}^h)} C(x^h,y^h)h表示人体点 ( x ^ h , y ^ h ) (\hat{x}^h, \hat{y}^h) (x^h,y^h)的置信度。最佳的物体点 ( x ^ o p t o , y ^ o p t o ) (\hat{x}^o_{opt},\hat{y}^o_{opt}) (x^opto,y^opto)也可以类似的方法来选择。
3.4 损失与推断
  • 最终损失可以通过对上述损失进行加权求和而得出:
    L = L a + L h + L o + λ ( L a h + L a o + L w h ) + L o f f (6) L=L_a+L_h+L_o+\lambda (L_{ah}+L_{ao}+L_{wh})+L_{off}\tag{6} L=La+Lh+Lo+λ(Lah+Lao+Lwh)+Loff(6)
    其中我们参考[15、35]将 λ \lambda λ设置为0.1。 L a , L h L_a,L_h La,Lh L o L_o Lo是点的位置损失, L a h L_{ah} Lah L o h L_{oh} Loh是位移损失,而 L w h L_{wh} Lwh L o f f L_{off} Loff是尺寸和偏移损失。
  • 在推论过程中,我们首先对预测的人,物体和交互点热力图进行步长为1的 3 × 3 3\times 3 3×3最大池化操作,其作用与NMS类似。其次,我们通过所有类别中相应的置信度 C ^ h , C ^ o \hat{C}^h,\hat{C}^o C^h,C^o C ^ a \hat{C}^a C^a选取前 K K K个人体点 S ^ h \hat{S}^h S^h,物体中心点 S ^ o \hat{S}^o S^o和交互点 S ^ a \hat{S}^a S^a。然后通过等式5对每一个交互点找到人体点和物体点。对每一个匹配的人体点 ( x ^ o p t h , y ^ o p t h ) (\hat{x}^h_{opt},\hat{y}^h_{opt}) (x^opth,y^opth),我们得到最终的框如下:
    ( x ^ r e f h − w ^ ( x ^ o p t h , y ^ o p t h ) 2 , y ^ r e f h − h ^ ( x ^ o p t h , y ^ o p t h ) 2 , x ^ r e f h + w ^ ( x ^ o p t h , y ^ o p t h ) 2 , y ^ r e f h + h ^ ( x ^ o p t h , y ^ o p t h ) 2 ) (7) (\hat{x}^h_{ref}-\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{y}^h_{ref}-\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{x}^h_{ref}+\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{y}^h_{ref}+\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2}) \tag{7} (x^refh2w^(x^opth,y^opth),y^refh2h^(x^opth,y^opth),x^refh+2w^(x^opth,y^opth),y^refh+2h^(x^opth,y^opth))(7)
    其中 x ^ r e f h = x ^ o p t h + δ ^ ( x ^ o p t h , y ^ o p t h ) x \hat{x}^h_{ref}=\hat{x}^h_{opt}+\hat{\delta}^x_{(\hat{x}^h_{opt},\hat{y}^h_{opt})} x^refh=x^opth+δ^(x^opth,y^opth)x y ^ r e f h = y ^ o p t h + δ ^ ( x ^ o p t h , y ^ o p t h ) y \hat{y}^h_{ref}=\hat{y}^h_{opt}+\hat{\delta}^y_{(\hat{x}^h_{opt},\hat{y}^h_{opt})} y^refh=y^opth+δ^(x^opth,y^opth)y是精确的人体中心点的位置。 ( w ^ ( x ^ o p t h , y ^ o p t h ) 2 , h ^ ( x ^ o p t h , y ^ o p t h ) 2 ) (\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2}) (2w^(x^opth,y^opth),2h^(x^opth,y^opth))是相应位置框的大小。最终的HOI检测结果是一个三元组,三元组的置信度为 C ^ x ^ r e f h y ^ r e f h p C ^ x ^ r e f o y ^ r e f o o C ^ x ^ r e f a y ^ r e f a a \hat{C}^p_{\hat{x}^h_{ref}\hat{y}^h_{ref}}\hat{C}^o_{\hat{x}^o_{ref}\hat{y}^o_{ref}}\hat{C}^a_{\hat{x}^a_{ref}\hat{y}^a_{ref}} C^x^refhy^refhpC^x^refoy^refooC^x^refay^refaa

表1

表1.HOI-A数据集中对应物体动词的列表和出现的编号。

4 HOI-A数据集

  • 现有的数据集例如HICO-Det[22]和VCOCO[11]极大地促进了相关研究的发展。但是,在实际应用中,需要特别注意的是频繁出现的HOI类别,在以前的数据集中并未被强调。然后,我们引入一个新的数据集,称为应用的人物交互(HOI-A)
  • 如表1所示,我们选择实际应用中驱动的动词类别。HOI-A数据集中的每种动词都有其相应的应用场景,例如,可以在危险的动作检测中应用的“通话”。例如,如果人在开车时通话,可以考虑为危险的驾驶行为。

图5

图4.HOI-A数据集中的示例图片,我们以<人,抽烟,香烟>为例,(a)-(d)显示了自然情况下<人,抽烟,香烟>这个类别内的巨大差异,(e)-(f)展示了两种负样本。

4.1 HOI-A结构
  • 我们描述了用于构建HOI-A数据集的图像收集和注释过程。第一步是收集候选图像,该图像可以分为两部分,即正图像和负图像。
  • 正图像收集,我们以两种方式收集正图像,即相机拍摄和爬取。相机拍摄是扩大数据内部类差异的一种重要方法。我们雇佣了50名表演者,要求他们在不同的场景和光照下以各种姿势执行所有预定义的动作,并分别用RGB相机和IR相机拍摄他们的照片。对于从互联网爬取的数据,我们基于HOI三元组<人,行为名称,物体名称>,行为对<行为名称, 物体名称>和动作名称生成一系列关键字,并从互联网检索图像。
  • 负图像收集,预定义的<人,交互,物体>的负样本有两种。1)有关物体出现在图像中,但是有关的动作没发生。例如在图4(f)中,尽管香烟在图像中出现,但是人并未吸烟。因此,这个图像是一个负样本。2)发生了与所关注动作类似的其他动作,但是所关注的物体却没有出现。例如,在图4(e)中,该男子看上去在吸烟,但是仔细观察图像会发现图像中没有香烟。我们以攻击的方式来收集这种负样本。我们首先基于带注释的正样本图像训练一个多标签动作分类器。分类器将图像作为输入,并输出动作分类的概率。然后我们让演员不用交互的物体任意表演来攻击分类器。如果攻击成功,我们会将这张图片记录为难例负样本。
  • 注解,注解的过程包含两个步骤:框注释和交互注释。首先,在预定义的类别中的所有物体都用一个框和相应的类别进行注释。其次,我们将图像中的框以及ID可视化并注释一个人是否具有与物体的已被定义的交互。注释者应记录<人的ID,交互ID, 物体ID>,为了获得更准确的注释,每个图像都由3个注释者来注释。如果至少有两个注释者有同一个注释,则该图像的注释被认为合格。
4.2 数据集的属性
  • 规模,我们的HOI-A数据集包含38668个带注释的图像,11种物体和10个动作类别。在详细信息中,它包含43820个人类实例,60438个物体实例以及96160个交互实例。每个人平均进行2.2次互动。表1列出了每个动词至少出现360次的实例数。 60 % 60\% 60%的动词已出现超过6500次。据我们所知,就每个交互类别的图像而言,这已经是最大的HOI数据集。
  • 类别内部的变化,为了扩大数据的类内变化,我们的HOI-A数据集中的每个动词都将通过三个一般场景进行拍摄,包括室内,室外和车内,三种照明条件包括黑暗,自然和强烈,各种人的姿势和不同的角度。此外,我们使用两种相机拍摄图像:RGBIR

5 实验

5.1 实验设置
  • 数据集,为了验证我们PPDM的有效性,我们不仅对我们的HOI-A数据集进行了实验,而且还在常规HOI检测数据集HICO-Det[2]上进行了实验。HICO-Det是用于常见HOI检测的大规模数据集。它包含了47776个图像(用于训练的38118个图像和用于测试的9658个图像),并用117个动词(包括“无交互”)和80个物体类别进行注释,117个动词和80个物体组成600种HOI三元组,其中出现次数小于10的138种HOI被视为稀有集,其余462种HOI形成非稀有集。
  • 度量标准,按照HOI检测任务的标准设置,我们使用平均精度均值(mAP)作为度量标准。如果预测的三元组被认为是真实的正样本,则需要匹配某个真实的三元组。具体来说,它们具有相同的HOI类,并且其人体框和物体框的IOU的值大于0.5。在两个数据集上计算AP时会有细微的差异。我们在HICO-Det中按每个HOI类计算AP,并在HOI-A数据集中按动词类计算AP
  • 实施细节,我们使用两个常见的热力图预测网络作为我们的特征提取器:Hourglass-104[21、15]和DLA-34[31、35]。Hourglass-104是通常用于关键点检测和物体检测的通用热力图预测网络。在PPDM中,我们使用[15]中提出的修改版本Hourglass-104DLA-34是一个轻量级的骨干网络,我们采用[35]中提出的改进版本。网络的感受野需要足够大以覆盖人和物体。Hourglass-104具有足够大的感受野,而DLA-34的感受野由于其相对较浅的结构而无法覆盖包括人和物体在内的区域。因此,对于基于DLA的模型,我们将最后三个层的特征连接起来,并应用基于图的全局推理模块[3]来扩大交互点和位移预测的感受野。在全局推理模块中,我们将节点和简化特征的的通道分别设置为48和96。对于Hourglass-104,我们对所有后续模块仅使用最后一层的特征值。我们使用在COCO[18]上预先训练的权重来初始化特征提取器。我们的实验都是在Titan Xp GPUCUDA 9.0上进行的
  • 在训练和推理期间,输入分辨率为 512 × 512 512\times 512 512×512,输出为 128 × 128 128\times 128 128×128PPDM在8个GPU上使用Adam算法来训练。我们设置了以下的超参数[35],它对我们的框架是健壮的。我们使用大小为128的110个小批次训练了基于DLA-34的模型,在第90个批次时学习率从5e-4降低到5e-5。对于基于Hourglass-104的模型,我们使用大小为32的110个批次来训练它,在第90个批次时,学习率从3.2e-4降低了10倍。我们遵循了[15、35]的方法,应用数据增强,即随机尺度和随机移位来训练模型,并在推理过程中没有增强。我们设置的预测数 K K K是100。

表2

表2.在HICO-Det测试集上的性能比较。其中的“A”,“P”,“S”,“L”分别代表外观特征、人体姿势特征、空间特征和语言特征。

表3

表3.在HOI-A测试集上的性能比较。

图5

图5.在HICO-Det上与iCAN的比较结果可视化。第一行是iCAN的预测结果,第二行是PPDM的结果。紫色的注解是人,红色的是物体。如果一个人和一个物体有交互,他们会被绿色的线连接起来。我们以每张图片的前3个置信度展示结果:1-蓝色,2-黄色,3-粉色。为“no”的注解是没有交互。

5.2 与最新技术的比较
  • 我们将PPDM与两个数据集上的最新方法进行了比较。定量结果见表2和表3,定性结果见图5。比较的方法主要使用预先训练的Faster R-CNN[23]生成一组人-物体对,然后将其喂给成对分类网络。如表2所示,为了更准确地对HOI分类,许多方法都使用了其他人体姿势特征或语言特征。
5.2.1 定量分析
  • HICO-Det,参见表2。我们的PPDM-DLAPPDM-Hourglass均优于以前的所有最新方法。具体而言,与之前最佳方法PMFNet[26]相比,我们的PPDM-Hourglass可以显著提高性能( 24.5 % 24.5\% 24.5%)。我们可以看到,以前的mAP大于 17 % 17\% 17%的方法都使用人体姿势作为附加特征,而我们的PPDM仅使用外观特征。在稀少子集上,PPDM的性能略低于PMFNet。但是,不使用人体姿势信息的PMFNet基本模型在稀少集上只能达到 11.42 % 11.42\% 11.42%。稀少集的性能增益可能主要来自于附加的人体姿势特征。人的结构信息在理解人的行为方面起着重要作用,因此我们认为如何在我们的框架中利用人的背景是未来的重要工作。
  • HOI-AHOI-A数据集中的比较方法由两部分组成。第一部分,我们从ICCV 2019 PIC挑战HOI检测[1]的排行榜中选择前三的方法,这些方法在我们HOI-A数据集上测试。与使用强大检测器的第一名方法C-HOI[34]相比,我们的方法仍然要优于它。第二部分,我们选择两个开源的单前最好的方法iCAN[7]和TIN[16]作为我们HOI-A数据集的基准。我们首先使用FPNResNet-50Faster R-CNN进行预训练,然后按照它们原始的设置来训练HOI分类器。结果表明,我们的PPDM大大优于两种方法。此外,对于我们选择的具有实际意义的交互类型,我们的PPDM可以在实际中达到高性能。
5.2.2 定性分析
  • 我们使用基于PPDM-DLAHICO-Det数据集上的前3个置信度来可视化HOI预测结果,并将我们的结果与典型的二阶段方法iCAN[7]进行比较。如图5所示,我们选择了二阶段方法的具有代表性的错误案例。我们可以看到,iCAN倾向于将重点放在具有较高的检测度但没有交互的人/物体上。在图5(b)和图5(c)中,由于正负样本的巨大失衡,iCAN很容易为“无交互”类型产生高置信度。在图5(d)中,坐在飞机上的人很小,无法被检测到。但是,在这些情况下,我们的PPDM可以高度准确地预测HOI三元组。因为PPDM不依赖于提案。此外,PPDM集中在对HOI三元组的理解上。
5.2.3 效率分析
  • 我们将单个Titan Xp GPU上的推理速度与已发布代码或报告速度的方法进行了比较。如表2所示,具有DLAHourglassPPDM都比其他方法要快得多。PPDM-DLA是唯一的实时方法,只需要27ms的推理时间。具体来说,二阶段HOI检测方法的推理时间可以分为提案生成时间和HOI分类器时间。此外,基于姿势的方法需要花费额外的时间来估计人体关键点。可以看出,PPDM-DLA的速度比所比较的方法任一阶段都快。

表4

表4.在HICO-Det测试集上的组成分析。

图6

图6.可视化交互点热力图和位移。红色和紫色的线表示交互点(绿色)到物体和人的位移。

5.3 组成分析
  • 我们从定量和定性的角度分析了PPDM中提出的组件。
  • 特征提取器,我们分析了DLA主干网络中其他模块的有效性,即特征融合和全局推理。表4中的第一行代表具有DLA的基本框架,在该框架中,我们仅根据最后一层的特征预测交互。它表明基本模型仍然可以胜过所有现有方法。它证明了我们设计框架的有效性。第二行和第三行分别显示了具有特征融合和全局推理模块的基本模型结果,从表4中可以看到,性能变化不大。如果我们同时将这两个设置添加到基本框架中,则性能将提高 0.35 % 0.35\% 0.35%mAP。我们得出的结论是,较大的感受野和全局范围有助于进行交互预测。
  • 点检测,为了验证两个中心点的中点是否是预测交互点的最佳选择,我们基于在人和物体框的联合中心处的交互点进行试验,这是另一个交互的合适预测位置。请参阅表4的第4行。与PPDM-DLA相比,mAP下降了 1.64 % 1.64\% 1.64%。通常,两个物体与同一个人互动,并且可能位于人的框中,在这种情况下,它们的框的中心点会重叠。此外,我们定性地分析了交互点。如图6所示,尽管人类远离物体或者在物体内,但预测的交互点几乎准确的位于人/物体的中心点。
  • 点匹配,为了进一步了解位移,我们将图6中的位移可视化。我们可以看到交互点加上相应的位移非常接近人/物体框的中心,即使很难这里的人/物体很难被检测到。

6 结论

  • 在本文中,我们提出了一种新颖的单阶段框架和一个用于HOI检测的新数据集。我们提出的方法可以以相当快的速度胜过现有的方法。它打破了传统的二阶段方法的局限,并通过并行框架直接预测HOI。我们提出的HOI-A数据集更倾向于在实际应用中进行HOI检测。对于未来的工作,我们计划探索如何在我们的框架中利用人体信息。此外,我们计划丰富HOI-A数据集的行为类别。

参考文献

  • [1] Pic leaderboard. http://www.picdataset.com/challenge/leaderboard/hoi2019.
  • [2] Yu-Wei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. In WACV, 2018.
  • [3] Yunpeng Chen, Marcus Rohrbach, Zhicheng Yan, Yan Shuicheng, Jiashi Feng, and Yannis Kalantidis. Graph-based global reasoning networks. In CVPR, 2019.
  • [4] Zhiwei Dong, Guoxuan Li, Yue Liao, Fei Wang, Pengju Ren, and Chen Qian. Centripetalnet: Pursuing high-quality keypoint pairs for object detection. In CVPR, 2020.
  • [5] Hao-Shu Fang, Jinkun Cao, Yu-Wing Tai, and Cewu Lu. Pairwise body-part attention for recognizing human-object interactions. In ECCV, 2018.
  • [6] Wei Feng, Wentao Liu, Tong Li, Jing Peng, Chen Qian, and Xiaolin Hu. Turbo learning framework for human-object interactions recognition and human pose estimation. 2019.
  • [7] Chen Gao, Yuliang Zou, and Jia-Bin Huang. ican: Instancecentric attention network for human-object interaction detection. In BMVC, 2018.
  • [8] Ross Girshick. Fast r-cnn. In CVPR, 2015.
  • [9] Georgia Gkioxari, Ross Girshick, Piotr Dollar, and Kaiming He. Detecting and recognizing human-object interactions. In CVPR, 2018.
  • [10] Abhinav Gupta, Aniruddha Kembhavi, and Larry S Davis. Observing human-object interactions: Using spatial and functional compatibility for recognition. TPAMI, 2009.
  • [11] Saurabh Gupta and Jitendra Malik. Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.
  • [12] Tanmay Gupta, Alexander Schwing, and Derek Hoiem. Nofrills human-object interaction detection: Factorization, appearance and layout encodings, and training techniques. In ICCV, 2019.
  • [13] Roei Herzig, Moshiko Raboh, Gal Chechik, Jonathan Berant, and Amir Globerson. Mapping images to scene graphs with permutation-invariant structured prediction. In NIPS, 2018.
  • [14] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123(1):32–73, 2017.
  • [15] Hei Law and Jia Deng. Cornernet: Detecting objects as paired keypoints. In ECCV, 2018.
  • [16] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Hao-Shu Fang, Yan-Feng Wang, and Cewu Lu. Transferable interactiveness prior for human-object interaction detection. In CVPR, 2019.
  • [17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object detection. In CVPR, 2017.
  • [18] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
  • [19] Cewu Lu, Ranjay Krishna, Michael Bernstein, and Li FeiFei. Visual relationship detection with language priors. In ECCV, 2016.
  • [20] Alejandro Newell and Jia Deng. Pixels to graphs by associative embedding. In NIPS, 2017.
  • [21] Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.
  • [22] Siyuan Qi, Wenguan Wang, Baoxiong Jia, Jianbing Shen, and Song-Chun Zhu. Learning human-object interactions by graph parsing neural networks. In ECCV, 2018.
  • [23] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015.
  • [24] Liyue Shen, Serena Yeung, Judy Hoffman, Greg Mori, and Li Fei-Fei. Scaling human-object interaction recognition through zero-shot learning. In WACV, 2018.
  • [25] Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation.
  • [26] Bo Wan, Desen Zhou, Yongfei Liu, Rongjie Li, and Xuming He. Pose-aware multi-level feature network for human object interaction detection. In ICCV, 2019.
  • [27] Tiancai Wang, Rao Muhammad Anwer, Muhammad Haris Khan, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao, and Jorma Laaksonen. Deep contextual attention for human-object interaction detection. In ICCV, 2019.
  • [28] Bingjie Xu, Yongkang Wong, Junnan Li, Qi Zhao, and Mohan S. Kankanhalli. Learning to detect human-object interactions with knowledge. In CVPR, 2019.
  • [29] Danfei Xu, Yuke Zhu, Christopher B Choy, and Li Fei-Fei. Scene graph generation by iterative message passing. In CVPR, 2017.
  • [30] Bangpeng Yao and Li Fei-Fei. Recognizing human-object interactions in still images by modeling the mutual context of objects and human poses. TPAMI, 2012.
  • [31] Fisher Yu, Dequan Wang, Evan Shelhamer, and Trevor Darrell. Deep layer aggregation. In CVPR, 2018.
  • [32] Ji Zhang, Kevin J Shih, Ahmed Elgammal, Andrew Tao, and Bryan Catanzaro. Graphical contrastive losses for scene graph parsing. In CVPR, 2019.
  • [33] Penghao Zhou and Mingmin Chi. Relation parsing neural network for human-object interaction detection. In ICCV, 2019.
  • [34] Tianfei Zhou, Wenguan Wang, Siyuan Qi, Haibin Ling, and Jianbing Shen. Cascaded human-object interaction recognition. In CVPR, 2020.
  • [35] Xingyi Zhou, Dequan Wang, and Philipp Krahenbuhl. Objects as points. arXiv preprint arXiv:1904.07850, 2019.
  • [36] Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, and Anton van den Hengel. Care about you: towards large-scale human-centric visual relationship detection. arXiv preprint arXiv:1705.09892, 2017.

  1. https://github.com/YueLiao/PPDM ↩︎

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值