caption重要性 image_2019 年，借 VQA 来聊聊 Image-text matching-CSDN博客

本文链接：https://blog.csdn.net/weixin_34541572/article/details/112191747

做 "image-text matching" 这个 topic 有大半年的时间了，从 CVPR2020 鸽到 IJCAI2020，code 写了不少，实验也做了不少，但是最后还是没能做出来，接下来要去 MSRA 实习一段时间，不知道又要鸽到什么时候了。

在实验后期卡住的时候，我看到了一些新颖的 VQA 的工作，感觉蛮有意思。本篇文章主要结合这些 VQA 模型和我的实验结果，写一写我对 image-text matching 这个 task 的想法。

VQA 和 image-text matching 的问题有很多共同点，比如两者都分别接受 image 和 text 特征然后进行 encode。如果把 matching 看作二分类问题，那不同点几乎就只有 VQA 的输出是多类，而 matching 是两类了。所以我从 VQA 中得到了不少对 matching .任务的思考。不废话了，本篇文章就记录一下这个过程中的一些想法，有理解的不好的地方，还请大家能批评指正（如果有人看的话）。

Smilarity or Fusion？

简单地说，matching 问题的处理方式可以分为“相似度”和“分类”。“相似度”就是在同一个 embedding space 中用余弦相似度或者点乘等传统方法来计算 image 和 text 对应的相似度来判断匹配与否，代表方法有 SCAN[1] 和 VSRN[2]。“分类”的方法则是希望用神经网络去拟合一个比余弦相似度更好的函数，来对输入的 image 和 text feature 进行 match or not 的二分类，这种输入来自两个模态，输出为某结果的神经网络设计一般称为 Fusion，在 VQA 中比较常见，代表方法有MTFN[3]。

好，铺垫完毕。本部分的内容是讨论传统的相似度计算和 Fusion 的优劣。

先从理论角度来分析这个问题。