PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network
Motivation
该论文认为在图像中央的目标往往比不在图像中央的目标重要,可是这也不是绝对的,region 的位置信息对于图像的权重应该是有贡献的,所以在PFAN的基础上提出了一个嵌入图像位置信息的方法。
Method
PFAN++模型的特点有:
- 它在计算相似度时同时考虑了全局的相似度和局部相似度,使用一个参数控制两个相似度对总相似度的影响。
- 它对图像部分进行了位置嵌入,并且为单个region计算注意力矩阵以充分考量region的不同部分对语义的影响。
此外这篇论文还构造了一个关于腾讯新闻的中文数据集。
PFAN++的模型结果如下图:
除了上面提到的两点,其他结构都和一般的基于注意力机制的跨模态方法差不多了,所以单独记录以下上面两点。
全局相似度+局部相似度
Position Representation + Embedding
该论文把输入的image分割为k*k个block bi,然后取region vi与b相交的前k个block的像素生成矩阵a,其中:
随后使用region特征计算与image相交的前L个block的相似权重:
。。。
这篇论文的实验结果有个非常奇怪的点,与PFAN相比,明明是为图像嵌入了position信息,反而在i2t的时候降低了性能,甚至总的性能也只是提升了0.几个点。特意为了增加图像信息而嵌入的图像特征反而在一定的情况下损害了模型的性能,正式提升的性能也只有一点点,是不是可以说这个*++*在挺多时候是不work的呢。。。