GroundeR:Grounding by Reconstruction
主要框架分为两部分,一是根据phrase p(也就是caption中的某个词组)确定出图片中最可能对应的区域(proposals),二是根据选出的区域重构出一个phrase p0.
3.1 Learning to ground
要在一幅图片的N个proposals中选出与phrase p最匹配的,需要定义一个attention function: fATT 来选出获得最大attention的box j : j = arg max fATT(p, ri)
那fATT 是什么呢? 他就是文章中提到的attention modal,它的输入是一个多词短语,短语中每个单词先用one-hot编码表示,然后经过embedding成为对应词向量,作为编码器LSTM的输入。LSTM最后一个时间步的hidden state h 作为该phrase的表示。
接下来,每个bo