2017 VQA Challenge 第一名技术报告

作者丨罗若天

学校丨TTIC博士生

研究方向丨NLP,CV


1. 前言


之前听 Chris Manning 讲过一个 talk,说他们复现别人的 paper,按照别人的算法写,做到了比原本那篇 paper 高了 10 个点的结果。还有听认识的同学说,有一年因为算法的 performance 不够好论文被拒了,第二年重新回过去跑那个代码,随便调了调,performance 就比当时他们提交的时候高了很多。


我们做玄学的,好的 idea 固然重要,然而一个好的 idea 可能带来的效果的提升还不如一个好的 trick。当然啦,最好的是 trick 又有效,而且也有一个好的故事。


所以,这里推荐今年 VQA Challenge 的一篇技术报告,名字叫:


Tips and Tricks for Visual Question Answering


从名字就可以看出来,这篇文章没有任何新颖的 idea,完全就是工程上的脏活累活,但是将作者试的所有结构都列举了出来,并做了详细的 ablation study。 


虽然这篇文章中只讨论了在 VQA 上的 performance,但是可能这些 trick 也能用到其他多模态的问题上。就算不能用,这篇文章至少也告诉了你,你有哪些东西可以调。 


大家可以把这篇稿子当作一篇翻译稿,我自己也不是做 VQA,所以有些东西可能不是很精准,所以我就按照论文里怎么说怎么来,我就不多做评论了。


论文地址:https://arxiv.org/abs/1708.02711 


PPT(作者获奖后做的报告):

http://cs.adelaide.edu.au/~Damien/Research/VQA-Challenge-Slides-TeneyAnderson.pdf


2. VQA 背景


VQA 全称是 visual question answering。形式是给一个图片和一个关于这张图片的问题,输出一个答案。 



VQA 的挑战之处在于,这是一个多模态的问题,你需要同时了解文字和图片,并进行推理,来得到最后的答案(如果需要用到 common sense 常识的话就更困难了)。类似的多模态的问题有 image captioning,visual dialog 等等。


3. 数据集


大家比较常用的数据集就是 VQA 这个数据集,来自 Gatech 和微软;他们在去年发布了第一个版本。由于这个数据集很新,所以还存在一些问题:你可以用简单的通过死记硬背来回答对很多问题,获得 ok 的效果。比如

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值