caption重要性 image_2019 年,借 VQA 来聊聊 Image-text matching

bf5bd0d28ec0c15aca703285a9653027.png

做 "image-text matching" 这个 topic 有大半年的时间了,从 CVPR2020 鸽到 IJCAI2020,code 写了不少,实验也做了不少,但是最后还是没能做出来,接下来要去 MSRA 实习一段时间,不知道又要鸽到什么时候了。

在实验后期卡住的时候,我看到了一些新颖的 VQA 的工作,感觉蛮有意思。本篇文章主要结合这些 VQA 模型和我的实验结果,写一写我对 image-text matching 这个 task 的想法。

VQA 和 image-text matching 的问题有很多共同点,比如两者都分别接受 image 和 text 特征然后进行 encode。如果把 matching 看作二分类问题,那不同点几乎就只有 VQA 的输出是多类,而 matching 是两类了。所以我从 VQA 中得到了不少对 matching .任务的思考。不废话了,本篇文章就记录一下这个过程中的一些想法,有理解的不好的地方,还请大家能批评指正(如果有人看的话)。

Smilarity or Fusion?

简单地说,matching 问题的处理方式可以分为“相似度”和“分类”。“相似度”就是在同一个 embedding space 中用余弦相似度或者点乘等传统方法来计算 image 和 text 对应的相似度来判断匹配与否,代表方法有 SCAN[1] 和 VSRN[2]。“分类”的方法则是希望用神经网络去拟合一个比余弦相似度更好的函数,来对输入的 image 和 text feature 进行 match or not 的二分类,这种输入来自两个模态,输出为某结果的神经网络设计一般称为 Fusion,在 VQA 中比较常见,代表方法有MTFN[3]。

好,铺垫完毕。本部分的内容是讨论传统的相似度计算和 Fusion 的优劣。

先从理论角度来分析这个问题。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值