- 博客(5)
- 收藏
- 关注
原创 《Multi-level Attention Networks for Visual Question Answering》阅读笔记
《Multi-level Attention Networks for Visual Question Answering》阅读笔记一、研究背景effective semantic embedding and fine-grained visual understanding;人类语言问题以明确的查询意图传达强大的高级语义,而具有数万个像素的真实世界图像则相对低级且抽象,由于众所周...
2018-08-09 10:36:42 1690 2
原创 《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记一、研究背景视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,...
2018-08-04 16:31:43 1431
原创 《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记
《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记一、研究背景Bilinear models在视觉问答(VQA)任务中进行信息融合提供了一个吸引人的框架。 它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系,但它们存在高维度问题。 论...
2018-08-04 12:26:06 2849
原创 《iVQA: Inverse Visual Question Answering》读书笔记
《iVQA: Inverse Visual Question Answering》读书笔记一、iVQA介绍 VQA是根据image、question生成关于image的答案,而iVQA是VQA的逆过程,给出一个answer、image生成与之相关的question。 二、iVQA面临的挑战(1) iVQA模型利用问题偏差的可能性可能小于VQA通过答案偏差得分高的范围(问题偏差较少,利用...
2018-08-03 18:43:33 856
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人