论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

最新推荐文章于 2023-05-04 10:04:34 发布

开放知识图谱

最新推荐文章于 2023-05-04 10:04:34 发布

阅读量735

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/108191188

版权

本文探讨了在基于网格特征的可视问答系统中，网格特征与区域特征的性能对比。研究发现，网格特征在保持相近精度的同时，运行速度可提高一个数量级。作者通过实验验证了这一观察结果，并指出特征的语义内容比其格式更重要，预训练在对象和属性数据集上的模型能实现良好的性能。

摘要由CSDN通过智能技术生成

论文笔记整理：李爽，天津大学。

链接：https://arxiv.org/pdf/2001.03615v1.pdf

动机

随着“自下而上”注意力的普及，基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征，成为视觉和语言任务的事实标准。然而，目前尚不清楚区域优势是否是自下而上的注意力成功的关键原因。作者重新审视了用于VQA的网格特性，发现它们的性能令人惊讶——在同样的精度下，运行速度要快一个数量级。通过大量的实验，作者验证了这种观察在不同的VQA模型(报告了最先进的VQA 2.0 test-std, 72.71)、数据集上都是正确的，并且可以很好地推广到其他任务，比如图像描述。作者从头到尾学习了VQA模型，从像素直接到答案，并证明了在训练前不使用任何区域标注也可以实现较强的性能。

亮点

在基于边界框的视觉特征已经广为应用，替代了传统的基于网格特征的现状下，作者又重新审视了网格特征，将网格特征与区域特征进行实验对比，探索二者的性能是否存在大的差异。

论文框架介绍

Bo

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理：李爽，天津大学。链接：https://arxiv.org/pdf/2001.03615v1.pdf动机随着“自下而上”注意力的普及，基于边界框(或区域)的视觉特征最近已经超...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。