Learning to Learn Relation for Important People Detection in Still Images

       这篇论文是用来做静态图片的Important People Detection任务的,具体就是给定social event image和里面的已经检测出来的人物box,预测各个检测出来的人的重要程度,为的是根据图片中的最重要的人物的信息来推断该张social event image里正在发生什么事情,所以该任务还有助于其它事件检测任务,例如event detection,event/activity recognition 以及 image captioning等。

       本篇论文的方法的核心宗旨就是在利用图片中单个人的外表特征的同时也着重利用图片中人与人、人与事件的关系特征来对特定的人进行重要性预测。

figure 1

 

       网络的总体结构如图一所示,首先利用特征提取模块(Feature Representation Module)提取图片中人的特征以及整张图片的全局特征,这些特征被送入Relation Module用来得到最终用于分类的Relatiion Features,Relation Module包含 r 个 relation 子模块,目的就是要提取r个通道的Relation Features,在每个relation子模块中,布置了两个 相互作用的图表(interaction graphs) 结构,用来评估图中个体之间的重要性关系,评估出来的重要性关系将被编码成关系特征用于最终的重要性预测。两个 interaction graph 分别是person-person和person-event 的,分别用来评估人与人之间的相互关系以及人与事件的相互关系, r 个relation features 串联在一起组成一个 relation feaure,该relation feature再和person feature相加后用于最终的分类器。

Feature Representation Module                                     

figure 2

 

       如图二所示,提取了人物单独的特征(people's interior/individual information),人物周围的上下文信息(exterior/contextual information),全局信息(global information),人物的位置信息(是一个heat map)。exterior path是以interior为中性,扩大C^2倍得到的,利用ResNet-50进行特征的提取,将interior和exterior pathes送入到不同的ResNet-50s里,得到两个7x7x2048的features。对于位置信息,产生一个224x224的heat map,有该人物的坐标的像素值为1,其他的都是0. 对该heat map进行卷积产生一个7x7x256的feature,将这些features串联在一起,得到一个7x7x4352的feature,再利用两个卷积层和一个全连接层将那个特征转化成1024的向量作为person feature。对于全局信息,也是利用ResNet-50、两个卷积层和一个全连接层作为模型,送入整张图片产生一个1024维的向量,称之为global feature。

Relation Module

        由特征提取模块我们得到了person feature(f_i^O)以及global feature(f_{global}^O),Relation Module的目的是利用这两类型的特征产生r个relation features(ie, f_i^{R^1}),将r个relation features串联后再和person feature相加作为最后分类器的输入特征。

Relations Modeling in the Relation Submodule

         对于第l (l = 1, ..., r) 个 relation feature,人物i的relation feature是通过其他人物的person feature加权求和得到的,在加权之前通过W_V进行线性转换(每一个l都有一个W_V,这个W_V对于同一l的不同person feature共享),权重是\varepsilon _{ji},代表人物 j 和人物 i的重要性关系。它由下式定义:

其中 \hat{\varepsilon }_{ji}^p 代表 j 和 i 之间的重要性相互作用,通过对person-person的相互作用图表和event-person的相互作用图表进行分析获得。公式4可以有效减小有很多重要性相互作用输出的结点的影响,因为要是有个人对所有人都有很大的相互作用,那么这个人输入的相互作用的就没有很好的参考价值,反而还会打乱其他有意义的相互作用影响。

Constructing Interaction Graphs

       person-person interaction graph 表示为,event-person interaction graph表示为 

表示所有人的节点,, 表示image里的event,相当于前面提到的全局信息吧。表示所有人物中的两两对应关系,是两两相连的,而表示人物和event的对应关系,是多对一的。中的某个的计算公式如下:

是将涉及到的两个person feature相加,在相加之前通过将2014维的向量降到一个合适的空间方便计算,他们的设定和共享策略和前面的是一样的,最后由变成一个标量,再通过Relu将其限制在0以上。

中的某个的计算公式如下:

直接用将其转化为标量。

Estimating Importance Interaction from Both Graphs

利用前面提到的两个graph结构就可以得到重要性相互作用表示(),有两种方法:

一种是利用event-person interaction作为先验重要性信息对person-person interaction进行加权,如下式所示:

另一种是将event-person interaction作为和person-person interaction同等级平行输入,这样的话之前的公式(3)就变成下面的公式:

其中

实验证明这两种方法效果都比较好。

Classification Module for EndtoEnd Learning

最终的分类结构用两个全连接层得出两个标量表示important 和 non-important的概率。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值