VQA视觉问答系列2-----基础方法与模型
基本的深度学习模型
对问题和图片进行编码,再做特征融合,通过全连接和softmax得到答案。如Vanilla VQA,使用VGGNet和LSTM。
基本结构:对于图像侧,用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入,再通过全连接层变换到1024维,在问题侧,用词向量模型对每个问题字进行编码,供给两个隐藏层的LSTM,再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘,全连接加softmax得到每个答案的分数。

基于注意力机制的模型
up-down
最经典的是2017、2018年VQA challenge冠军的基本模型Up-Down模型。
bottom-up attention:用faster rcnn提取feature,得到k个区域的特征向量,一般每个2048维。
top-down attention:这个注意力机制的原型为soft attention 机制,本质上是为不同区域的图像特征赋予权重,决定了每个区域feature的权重。权重的获得: a i = w a T f a ( [ v i , q ] ) a_i=w_a^T f_a([v_i,q])
本文探讨了VQA(视觉问答)的基本深度学习模型和基于注意力机制的模型,包括Vanilla VQA、Up-Down、SAN、Hierarchical Co-Attention model和DAN。这些模型通过编码问题和图像,应用注意力机制进行特征融合,从而得到答案。Up-Down模型使用底部至上注意力,而SAN则采用堆叠注意力网络。Hierarchical Co-Attention模型通过层次协同注意力处理问题的不同层级。DAN引入双重注意力网络,用于多模式推理和匹配。再注意力模型利用答案信息改进关注点。
最低0.47元/天 解锁文章
795

被折叠的 条评论
为什么被折叠?



