PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network论文笔记

PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network

Motivation
该论文认为在图像中央的目标往往比不在图像中央的目标重要,可是这也不是绝对的,region 的位置信息对于图像的权重应该是有贡献的,所以在PFAN的基础上提出了一个嵌入图像位置信息的方法。
图中举了一个例子,我们可以发现a中men在图像中央且表达了主要的意思,但是b中woman在图像的边缘也表达了主要的意思,正常情况下图片a的情况较多,但是也有b的情况出现,所以不能简单地为在图像中央的region赋予更高的权重
Method
PFAN++模型的特点有:

  1. 它在计算相似度时同时考虑了全局的相似度和局部相似度,使用一个参数控制两个相似度对总相似度的影响。
  2. 它对图像部分进行了位置嵌入,并且为单个region计算注意力矩阵以充分考量region的不同部分对语义的影响。
    此外这篇论文还构造了一个关于腾讯新闻的中文数据集。

PFAN++的模型结果如下图:

除了上面提到的两点,其他结构都和一般的基于注意力机制的跨模态方法差不多了,所以单独记录以下上面两点。

全局相似度+局部相似度
图像检索文本时的局部相似度
全局相似度,其中g代表图像的全局信息,是直接从fasterRCNN的black bone提取的,E代表textual的全局信息,是biGRU最后一层的输出
Position Representation + Embedding


该论文把输入的image分割为k*k个block bi,然后取region vi与b相交的前k个block的像素生成矩阵a,其中:
OV是vi和bpij相交的像素数
随后使用region特征计算与image相交的前L个block的相似权重:



。。。
这篇论文的实验结果有个非常奇怪的点,与PFAN相比,明明是为图像嵌入了position信息,反而在i2t的时候降低了性能,甚至总的性能也只是提升了0.几个点。特意为了增加图像信息而嵌入的图像特征反而在一定的情况下损害了模型的性能,正式提升的性能也只有一点点,是不是可以说这个*++*在挺多时候是不work的呢。。。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值