2017 VQA Challenge 第一名技术报告

最新推荐文章于 2023-02-05 17:09:24 发布

PaperWeekly

最新推荐文章于 2023-02-05 17:09:24 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78141118

版权

作者丨罗若天

学校丨TTIC博士生

研究方向丨NLP，CV

1. 前言

之前听 Chris Manning 讲过一个 talk，说他们复现别人的 paper，按照别人的算法写，做到了比原本那篇 paper 高了 10 个点的结果。还有听认识的同学说，有一年因为算法的 performance 不够好论文被拒了，第二年重新回过去跑那个代码，随便调了调，performance 就比当时他们提交的时候高了很多。

我们做玄学的，好的 idea 固然重要，然而一个好的 idea 可能带来的效果的提升还不如一个好的 trick。当然啦，最好的是 trick 又有效，而且也有一个好的故事。

所以，这里推荐今年 VQA Challenge 的一篇技术报告，名字叫：

Tips and Tricks for Visual Question Answering

从名字就可以看出来，这篇文章没有任何新颖的 idea，完全就是工程上的脏活累活，但是将作者试的所有结构都列举了出来，并做了详细的 ablation study。

虽然这篇文章中只讨论了在 VQA 上的 performance，但是可能这些 trick 也能用到其他多模态的问题上。就算不能用，这篇文章至少也告诉了你，你有哪些东西可以调。

大家可以把这篇稿子当作一篇翻译稿，我自己也不是做 VQA，所以有些东西可能不是很精准，所以我就按照论文里怎么说怎么来，我就不多做评论了。

论文地址：https://arxiv.org/abs/1708.02711

PPT（作者获奖后做的报告）：

http://cs.adelaide.edu.au/~Damien/Research/VQA-Challenge-Slides-TeneyAnderson.pdf

2. VQA 背景

VQA 全称是 visual question answering。形式是给一个图片和一个关于这张图片的问题，输出一个答案。

VQA 的挑战之处在于，这是一个多模态的问题，你需要同时了解文字和图片，并进行推理，来得到最后的答案（如果需要用到 common sense 常识的话就更困难了）。类似的多模态的问题有 image captioning，visual dialog 等等。

3. 数据集

大家比较常用的数据集就是 VQA 这个数据集，来自 Gatech 和微软；他们在去年发布了第一个版本。由于这个数据集很新，所以还存在一些问题：你可以用简单的通过死记硬背来回答对很多问题，获得 ok 的效果。比如

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
2017 VQA Challenge 第一名技术报告

作者丨罗若天学校丨TTIC博士生研究方向丨NLP，CV1.前言之前听 Chris Manning 讲过一个 talk，说他们复现别人的 paper，按照别人的算法写，做到了比原本那篇 paper 高了 10 个点的结果。还有听认识的同学说，有一年因为算法的 performance 不够好论文被拒了，第二年重新回过去跑那个代码，随便调了调，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。