自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

bxg1065283526的博客

学习笔记

VQA2020

关注

关注数：文章数：1 文章阅读量：1429 文章收藏量：7

作者: bxg1065283526

希望现在开始为时不晚，努力一定会有收货

展开

In Defense of Grid Features for Visual Question Answering论文笔记

Abstract 作为“自底向上”关注[2]，基于边界框（或区域）的视觉特征最近已经超过了普通的基于网格的卷积特征，成为视觉和语言任务（如视觉问题回答（VQA））的事实标准。然而，还不清楚地区的区域（例如更好的定位）是否是自下而上注意力成功的关键原因。在这篇文章中，我们重新审视了VQA的网格特性，发现它们可以非常好地工作——以同样的精度运行速度快一个数量级以上（例如，如果以类似的方式预先训练）。通过大量的实验，我们验证了这一观察结果在不同的VQA模型（报告了vqa2.0测试标准72.71的最新精度）、数据

原创 2020-07-18 16:09:33 · 1429 阅读 · 0 评论