VQA视觉问答系列2-----基础方法与模型
基本的深度学习模型
对问题和图片进行编码,再做特征融合,通过全连接和softmax得到答案。如Vanilla VQA,使用VGGNet和LSTM。
基本结构:对于图像侧,用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入,再通过全连接层变换到1024维,在问题侧,用词向量模型对每个问题字进行编码,供给两个隐藏层的LSTM,再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘,全连接加softmax得到每个答案的分数。
基于注意力机制的模型
up-down
最经典的是2017、2018年VQA challenge冠军的基本模型Up-Down模型。
bottom-up attention:用faster rcnn提取feature,得到k个区域的特征向量,一般每个2048维。
top-down attention:这个注意力机制的原型为soft attention 机制,本质上是为不同区域的图像特征赋予权重,决定了每个区域feature的权重。权重的获得: a i = w a T f a ( [ v i , q ] ) a_i=w_a^T f_a([v_i,q])