VQA
文章平均质量分 92
Meteor2022
这个作者很懒,什么都没留下…
展开
-
MUREL: Multimodal Relational Reasoning for Visual Question Answering笔记
一、论文信息 论文地址:https://arxiv.org/abs/1902.09487 代码地址:github.com/Cadene/ murel.bootstrap.pytorch 二、论文模型 2.1 预处理部分 这篇文章没有具体说明预处理的部分,但是看模型框架图可以发现,处理视觉特征使用的是Faster-RCNN,处理问题特征使用的是GRU。然后得到N个dv维...原创 2019-10-12 20:37:05 · 408 阅读 · 0 评论 -
Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering笔记
一、论文信息 论文地址:https://arxiv.org/abs/1812.05252 项目地址:https://github.com/bupt-cist/DFAF-for-VQA.pytorch,复现代码 二、论文模型 2.1预处理部分 使用了Faster-RCNN对每个目标image提取了100个RoI,得到100×2048100\times 2048100×2048 大小的向量。论文中使...原创 2019-10-11 10:16:50 · 927 阅读 · 2 评论