VQA视觉问答系列2-----基础方法与模型
VQA视觉问答系列2-----基础方法与模型基本的深度学习模型基于注意力机制的模型up-down基本的深度学习模型对问题和图片进行编码,再做特征融合,通过全连接和softmax得到答案。如Vanilla VQA,使用VGGNet和LSTM。基本结构:对于图像侧,用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入,再通过全连接层变换到1024维,在问题侧,用词向量模型对每个问题字进行编码,供给两个隐藏层的LSTM,再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘




