image
文章平均质量分 84
等风人
这个作者很懒,什么都没留下…
展开
-
《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记
《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记一、研究背景Bilinear models在视觉问答(VQA)任务中进行信息融合提供了一个吸引人的框架。 它们有助于学习question meaning 和 visual concepts in the image之间的高层次关系,但它们存在高维度问题。 论...原创 2018-08-04 12:26:06 · 2849 阅读 · 0 评论 -
《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记一、研究背景视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,...原创 2018-08-04 16:31:43 · 1431 阅读 · 0 评论 -
《Multi-level Attention Networks for Visual Question Answering》阅读笔记
《Multi-level Attention Networks for Visual Question Answering》阅读笔记一、研究背景effective semantic embedding and fine-grained visual understanding;人类语言问题以明确的查询意图传达强大的高级语义,而具有数万个像素的真实世界图像则相对低级且抽象,由于众所周...原创 2018-08-09 10:36:42 · 1690 阅读 · 2 评论 -
转载《Fast R-CNN》的相关原理及解释
转载《Fast R-CNN》的相关原理及解释Fast R-CNN的相关原理及解释转载 2018-08-06 14:38:26 · 251 阅读 · 0 评论