In Defense of Grid Features for Visual Question Answering论文笔记
Abstract作为“自底向上”关注[2],基于边界框(或区域)的视觉特征最近已经超过了普通的基于网格的卷积特征,成为视觉和语言任务(如视觉问题回答(VQA))的事实标准。然而,还不清楚地区的区域(例如更好的定位)是否是自下而上注意力成功的关键原因。在这篇文章中,我们重新审视了VQA的网格特性,发现它们可以非常好地工作——以同样的精度运行速度快一个数量级以上(例如,如果以类似的方式预先训练)。通过大量的实验,我们验证了这一观察结果在不同的VQA模型(报告了vqa2.0测试标准72.71的最新精度)、数据
原创
2020-07-18 16:09:33 ·
1416 阅读 ·
0 评论