Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读 DFAF论文解读
多模态特征融合的方法总结:应用于VQA视觉问答 对于视觉问答任务而言,其中比较重要的部分就是两种模态的特征融合。目前对于特征融合最先进的技术是双线性池化,该技术有很多的变体。我们主要围绕双线性池化这种模态融合的方法展开总结。其中MUTAN方法的代码,我已经放在这个链接里面。本文仅供大家参考,所有方法均来自于论文,如有侵权,请联系我删除!
VQA入门之“论文”《Stacked Attention Networks for Image Question Answering》 本节将要介绍一种新的特征融合方式,这篇论文的方法叫做堆叠注意力网络。那么从本节开始,所有的模型我会把原理讲清楚,然后用一个维度较低的例子带各位同学走一遍模型的前向传播。其思想是用编码后的文本向量去扫描编码后的图像的每个区域,然后得到每个区域的注意力分数,将注意力分数乘到每个区域上,然后求和,得到一个图像表示向量,然后将图像表示向量与编码后的文本向量求和得到融合后的向量。可能这样说有点抽象,没关系,相信你看完下面的内容再回过头来看这句话就会醍醐灌顶!
VQA入门之“论文”《Exploring Models and Data for Image QuestionAnswering》基础的双模态相互作用 论文名字的翻译为:探索“图像问答”的模型和数据本文主要是讲一下这篇论文所提到的模型,一些其他部分(引言,实验等等),可以自行去原论文查看。制作不易,求个关注~~下期间h_0h_0x_1h_1c_1h_1h_T。
VQA入门(模型原理+模型代码)之《简单的模态融合交互》 本文所介绍的VQA模型是一种最简单的VQA多模态交互模型。模型的关键点在于提取图像特征(Image_feature)和文本的特征(qst_feature),然后通过逐元素乘法将两种模态的特征融合到一起。这是一种早期的模态融合方法。欢迎对多模态感兴趣的朋友来互相学习讨论~图画的不好,还请见谅,下面的具体模型部分会再次讲解。Fig1:模型示意图Step1:假设训练样本的一张图像是[3,224,224]的,也就是一张图像有三个通道,图像的长和宽均为224,则训练样本为:x = [batch_size,3,224,