Scaling HOI Recognition through Zero-Shot Learning

WACV2018			Author:Liyue Shen

摘要

尽管最近在全监督学习下改进HOI识别方面取得了进展,但实际的人-物交互的空间会很大,所以为所有感兴趣的交互获取标签来训练数据是不切实际的。在这项工作中,我们通过零样本学习方法解决了将HOI识别扩展到长尾类别的问题。我们引入了一个分解的HOI检测模型,该模型将动词和对象分解,因此在测试时可以产生新的动词-对象对的检测。

1.介绍

零样本学习是一个把HOI检测出扩展到长尾类别的好方法。在零样本学习中,之前从未见过的类别是通过学习其他类别的训练数据进行识别的。实现这一目标的方法有度量学习、属性识别和基于领域转移的方法等。这些方法之前都被应用到图像或者场景分类中,但从未被在HOI中研究。
在本文工作中,我们解决了HOI检测问题,引入了一个由共享神经网络层和独立动词网络和对象网络组成的分解模型。整个模型以多任务方式联合训练,但会产生分开的动词和对象网络,可以在测试时根据以前看到的动词或对象实例识别新的动词-对象对

2.相关工作

HOI:以往的HOI检测都是全监督学习,我们的工作是第一个使用零样本学习来扩充HOI长尾类别的方法。
目标检测:我们的HOI检测方法利用了Faster R-CNN网络,但将其合并到一个分解模型中,用于图像中的联合动词和目标检测。
零样本学习:我们学习动词和对象分解模型的方法与基于属性的方法最相关。与这些类似,我们基于语义子组件推理新未见过的类别;相比之下,我们为人类和交互对象之间的结构化关系建模。

3.方法

直接监督学习产生动词-物体对需要对V*O类别的标签注释。但实际上这是很多余的,因为许多动作会涉及相同的交互物体,比如洗车和骑车;或者相同的人体动作,比如喂马和喂狗。
通过分解推理的两个组成部分,我们消除了对所有|V|·|O|类别的注释的必要性,而只对|V| + |O|类别启用注释的成对预测。

3.1模型结构

在这里插入图片描述
我们的模型主要由视觉特征提取层组成,后面是动词检测和对象检测网络。通过这种方式,我们明确地对动词和对象的表示进行建模和学习,之后可以将它们组合成不同的成对进行零样本学习。
模型的输入是一个可能包含多个HOI的图像。输出是由动词-对象对和动词、对象各自的边界框组成的HOI的空间检测。每个输入图像首先经过一个由5个卷积层和ReLU层组成的公共CNN特征提取猪肝网络,遵循VGG-19的卷积结构。这会产生一组特征图{Fi},然后将其传递给解开的动词预测网络(top分支)和对象预测网络(bottom分支)。在训练时,动词和对象预测网络能被独立用于先前看到的动词-对象对的预测(标准监督识别)和新的动词对象结合对(零样本学习)。接下来分别细述动词和对象预测网络。

3.1.1 动词网络

我们的动词网络(图中的top分支)基于外观特征和人体姿态特征。
外观特征:我们使用区域建议网络(RPN)来确定用于池化外观特征的候选动词区域的人的位置。RPN会从整个图片中推荐可能的bbox的集合{Bj},然后将{Bj}投影到公共主干的外观特征图{Fi}上,提取相应的感兴趣区域{R(Fi,Bj) }。一个RoI pooling层在为每个RoI生成一个特征表示{R^(Fi,Bj) }。然后再通过2个FC层来产生动词-外观特征。
姿态特征:姿态特征从基于部分亲和场的姿态估计网络中提取,集合在上述相同的RoI上。该网络由6个阶段组成,每个阶段由7个卷积层和6个ReLU层组成。这个网络的输出是一组姿态热点图{Hi},其中每个热点图是图像中人体关节位置的概率分布。关节组共有18张热点图,分别为J={“鼻”、“右肩”、“右肘”、“右腕”、“左肩”、“左肘”、“左腕”、“右髋”、“右膝”、“右脚踝”、“左髋”、“左膝”、“左脚踝”、“左眼”、“右眼”、“左耳”、“右耳”}。这些热点图然后通过两个FC层来产生动词-姿态特征。
最终,动词网络的输出是联合特征R~joint~(i,j)=[R(Fi,Bj),R^(Fi,Bj)],这是动词外观特征和动词姿态特征的拼接。为身体运动提供了丰富的描述。

3.1.2对象网络

对于对象网络(图中的bottom分支),我们使用Faster R-CNN框架。就像在动词网络中一样,我们首先使用一个RPN来决定候选对象的位置,然后使用一个RoI层来对这些位置的外观特征进行池化。在这个网络中,我们仅仅使用了外观特征,对象特征通过RoI层后面的2个FC层产生。然后这个特征会被用于目标对象分类器中。

3.2训练

根据Faster R-CNN模型,我们使用一个被训练成可以产生可能包含目标对象区域的RPN。在训练时这个RPN有两个直接损失目标。第一,对象损失是一个用于判断box中是否包含包含对象的标准二分类softmax损失。我们为所有与ground truth对象或动词box重叠大于0.7的盒子分配正标签。第二,用于anchor box和ground truth box之间bbox回归的smooth L1回归损失。
如图中(a)所示,模型中动词和对象分支分别按照两个独立的目标进行训练。对动词或对象分类都分别使用独立的sigmoid交叉熵损失和一个bbox回归损失。仅当对应分支(动词或对象)bbox是正的时候才在回归训练时分别使用动词或对象smooth L1损失。
我们使用公开的COCO-VGG19 Faster R-CNN权重初始化我们的模型中的对象和动词外观网络,使用公开的基于亲和力场的论文里的权值来初始化姿态特征网络,形成姿态热点图,并随机初始化另外两个FC层。所有的输出层都是随机初始化的。
模型使用固定学习率为0.001和动量为0.9的随机梯度下降进行训练。根据Faster R-CNN中引入的协议,我们固定了主干网络的前两层卷积。此外,在我们的实验中,由于HICO-DET数据集缺乏姿态注释,我们固定了与姿态热图预测相对应的参数。所有其他参数通过一起微调同时学习。

3.3测试

在测试阶段,我们的模型以如下方式产生零样本HOI检测(如图b所示)。图片先经过一个共享的网络层,后面再接分开的动词和对象网络。由于训练过程的原因,这些网络的输出现在会直接预测每一个动词类和对象类的概率,这些组成的HOI动词-对象对在训练过程中至少被见过一次。然后这些输出连接到HOI预测产生的|V|*|O|矩阵P中,其中|V|是训练过程中见过的动词类的数量,|O|是训练过程中见过的对象类的数量。P中的每个元素Pi,j代表动词检测i和对象检测j的连接,而HOI得分i,j是动词检测得分和对象检测得分的平均值。
为了获得图片的最终HOI得分,我们值保留具有空间相近关系的动词-对象对。具体来说,我们至少保持动词和对象检测在一个轴上重叠成对。通过这种方法,我们可以学习并重新利用我们的动词和对象检测网络来检测到|V| × |O| HOI类,尽管至少只要求|Vj| + |O|类的训练数据。

4.实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.总结

1.提出来一种零样本学习方法将HOI识别扩展到长尾类别。
2.在提出的模型里面,将verb和object分开,分别通过动词网络和对象网络进行处理,这样可以使其在进行零样本学习的时候配对成没见过的动词-对象对。
3.该模型在全监督学习中可以达到SOTA,同时还能通过零样本学习来识别为见过的动词-对象对。
4.后续工作包括扩展零样本学习方法使其能利用更多更强的结构空间关系,同时加快速度使其运用到视频数据中,并增加更为简单丰富的动词-对象对。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值