PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network论文笔记

最新推荐文章于 2023-06-17 14:21:28 发布

weixin_42863990

最新推荐文章于 2023-06-17 14:21:28 发布

阅读量483

点赞数 1

文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_42863990/article/details/120208955

版权

PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network

Motivation
该论文认为在图像中央的目标往往比不在图像中央的目标重要，可是这也不是绝对的，region 的位置信息对于图像的权重应该是有贡献的，所以在PFAN的基础上提出了一个嵌入图像位置信息的方法。
图中举了一个例子，我们可以发现a中men在图像中央且表达了主要的意思，但是b中woman在图像的边缘也表达了主要的意思，正常情况下图片a的情况较多，但是也有b的情况出现，所以不能简单地为在图像中央的region赋予更高的权重
Method
PFAN++模型的特点有：

它在计算相似度时同时考虑了全局的相似度和局部相似度，使用一个参数控制两个相似度对总相似度的影响。
它对图像部分进行了位置嵌入，并且为单个region计算注意力矩阵以充分考量region的不同部分对语义的影响。
此外这篇论文还构造了一个关于腾讯新闻的中文数据集。

PFAN++的模型结果如下图：

除了上面提到的两点，其他结构都和一般的基于注意力机制的跨模态方法差不多了，所以单独记录以下上面两点。

全局相似度+局部相似度
图像检索文本时的局部相似度
全局相似度，其中g代表图像的全局信息，是直接从fasterRCNN的black bone提取的，E代表textual的全局信息，是biGRU最后一层的输出
Position Representation + Embedding

该论文把输入的image分割为k*k个block bi，然后取region vi与b相交的前k个block的像素生成矩阵a，其中：
OV是vi和bpij相交的像素数
随后使用region特征计算与image相交的前L个block的相似权重：

。。。
这篇论文的实验结果有个非常奇怪的点，与PFAN相比，明明是为图像嵌入了position信息，反而在i2t的时候降低了性能，甚至总的性能也只是提升了0.几个点。特意为了增加图像信息而嵌入的图像特征反而在一定的情况下损害了模型的性能，正式提升的性能也只有一点点，是不是可以说这个*++*在挺多时候是不work的呢。。。

weixin_42863990

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network论文笔记

PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention NetworkMotivation该论文认为在图像中央的目标往往比不在图像中央的目标重要，可是这也不是绝对的，region 的位置信息对于图像的权重应该是有贡献的，所以在PFAN的基础上提出了一个嵌入图像位置信息的方法。MethodPFAN++模型的特点有：它在计算相似度时同时考虑了全局的相似度和局部相似度，使用一个参数控制两个相似度对总相似度
复制链接

扫一扫