Ishan Misra ,Abhinav Gupta ,Martial Hebert
The Robotics Institute, Carnegie Mellon University
@CVPR2017
Introduction
作者指出在当前的识别或检索任务中,state of art的方法多采用了data driven approach,就是通过监督学习从成千上万的数据中对复杂的概念进行建模,而不是像人类本能的那样通过将简单的概念组合为复杂的概念.
但将复杂的概念视为简单概念的组合不可避免的遇到一对关系:复合性和语境性.
作者用上图意在说明对于属性的视觉表达要依赖于他对应的物体(语境),红色对于酒的组合与红色对于西红柿的组合是完全不同的.作者提出了一种组合概念的方式,使其符合相应的语境,并且对于未训练过的组合有着良好的泛化能力.
Approach
本文的目标是将数个简单的视觉概念组合为一个复杂的视觉概念作为输出.作者将训练过的分类器作为相应的视觉概念的表达,然后通过学习一个神经网络,将数个简单的视觉概念的表达(分类器)转换为一个复杂的视觉概念表达作为输出.不失一般性的,作者展示了对于两个分类器的组合实现.其中
Va
V
a
表示属性概念的集合,
Vb
V
b
表示物体概念的集合,
Vab
V
a
b
表示组合而成的属性-物体复杂概念.这里假设
Va
V
a
包括了
M
M
个概念,包括了
N
N
个概念,则应该包含了
M∗N
M
∗
N
个概念组合.假设用于训练的数据集中包括了属于
M∗N
M
∗
N
个组合中的
K
K
个.对于每一种概念集合(本文中是两个,属性和物体)都训练一个SVM分类器,并以此产生了个权重向量,分别以
wa
w
a
和
wb
w
b
表示.作者本想直接训练
wab
w
a
b
,但由于
K
K
远小于,以此训练SVM较为困难(缺数据),故作者希望通过
wa
w
a
和
wb
w
b
直接学习得到
wab=T(wa,wb)
w
a
b
=
T
(
w
a
,
w
b
)
.
这里作者不选用相应属性/物体的 feature作为输入,而是选择了对应的分类器的权重.对于
wa
w
a
,也就是属性分类器,他的维度应该是
D,M
D
,
M
维,其中
D
D
对应了图像的feature维度,对应了可能的属性分类个数.
T
T
代表相应的Transform神经网络,由三个全连接层组成,输入为的
wa
w
a
和
N,D
N
,
D
的
wb
w
b
,输出为
D
D
维?这里作者没有给出输出的分类器的全部维度,个人认为应该是维,对应生成的
wab
w
a
b
.与此同时一张大象图像通过CNN提取到
D
D
维的feature,然后与做点乘再加上sigmoid激活函数,生成一个
M∗N
M
∗
N
维度的概率向量.通过Loss
Experiments
作者对比了几个Baseline,包括
Individual:不进行组合,仅仅使用
wa
w
a
,
wb
w
b
进行预测,并且只考虑最大的
p(a)
p
(
a
)
或
p(b)
p
(
b
)
.
Visual Product:不考虑语境只进行组合,认为
p(a,b)=p(a)p(b)
p
(
a
,
b
)
=
p
(
a
)
p
(
b
)
Label Embeddings:对label进行词义的映射而不是分类.
Label Embeddings Only Regression (LEOR): 相比LF修改了loss
Label Embeddings With Regression :前两者的结合
作者在MITStates上进行了测试,任务是预测训练集中从未出现过的(A,O)对.