文章的主要贡献点如下:值得学习的是,文章的写作挺好的。
文章的一个主要思想就是modular neural network,通过学习关于question与image的多模态(multimodal)与多方面(multifaceted)的表征,在VQA1.与VQA2.0上取得不错效果。
如上图所示,主要分为6个module
(1)对resnet提出的
7
∗
7
∗
512
7*7*512
7∗7∗512做question guided的attention,得到
r
v
r^v
rv
(2)object detection检测出的物体做attention,得到
r
o
r^o
ro,pretrained on existing work.
(3)object classification,其类别标签文本,得到
r
c
r^c
rc,pretrained on COCO.
(4)scene classification,其类别标签文本,得到
r
s
r^s
rs, pretrained on place365.
(5)face detection做attention,得到
r
f
r^f
rf, pretrained on existing face work.
(6)face根据gender,emotion,age分类标签,得到
r
a
r^a
ra
每个module的输出分别于question进行bilinear交互,最终拼接成一个向量 g g g,作为分类的输入。
Ablaion study
Comparing with state of the art