2020-07-16 CVPR2020 V&L论文讨论（5）笔记

最新推荐文章于 2022-07-27 16:34:25 发布

NeverMoreH

最新推荐文章于 2022-07-27 16:34:25 发布

阅读量598

点赞数

分类专栏：论文分享文章标签： CVPR2020 视觉语言 paper reading

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/107382823

版权

论文分享专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目录

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA
[3] Syntax-Aware Action Targeting for Video Captioning
[4] Modality Shifting Attention Network for Multi-modal Video Question Answering
[5] Graph-Structured Referring Expression Reasoning in The Wild
[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
总结

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

oral
motivation：模型答对了问题，但是可能并没有理解图像，这体现在对问题的回答存在不一致性（eg：图中香蕉是什么颜色的？绿色。这个香蕉熟了吗？熟了。）。
method：本文提出一个数据集，将VQA任务中的问题分为两类：Reasoning、Perception。其中，Perception类问题是Reasoning类问题的子问题（前提）。

[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA

oral，出自UCB + FaceBook
motivation：传统方法使用pairwise机制（对每两种模态进行融合、以此类推），且预测时使用分类方法，无法生成多个单词的答案。
method：多模态Transformer，多步指针增强decoder。
训练时：teacher forcing，给定真值，预测下一个值。

[3] Syntax-Aware Action Targeting for Video Captioning

poster，出自陶大程老师的小组
motivation：video captioning应更注重action（interaction）
method：语法感知模块 + 动作引导Captioner

[4] Modality Shifting Attention Network for Multi-modal Video Question Answering

poster
task：视频带有字幕，回答问题需要同时参考视频和字幕。可以分割为两个sub-task：①. video grounding；②. VQA。
challenge：①. 找出所有异质模态中有利于回答这个问题的关键时刻；②. 基于异质模态进行问答；
method：给我的感觉，和video grounding、VQA中的方法差不多。

[5] Graph-Structured Referring Expression Reasoning in The Wild

oral
参考链接

[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

oral
参考链接

总结

[2] 在V&L中使用了Transformer，但是使用方法有些简单，感觉没有发挥出Transformer的优势。
[1][5][6] 三篇文章分别针对VQA、RE、ImageCaptioning三个任务，提出了具有推理能力的方法。[1]从sub-question的一致性出发，将question分为两类，并提出了特定数据集。[5]中考虑referring expression的语言结构，作为reasoing的order。[6]提出了抽象场景图的概念，并适用抽象场景图作为reasoning的order（当然，这篇文章的重点在于抽象场景图带来的细粒度可控性）。由此可见，进行reasoning的形式和方法有很多，应多思考。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2020-07-16 CVPR2020 V&L论文讨论（5）笔记

目录[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA[3] Syntax-Aware Action Targeting for Video Captioning[4] Modality Shifting Attention Netwo
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。