VQA视觉问答系列2-----基础方法与模型

@华风夏韵

于 2021-01-21 22:52:20 发布

阅读量1k

点赞数

分类专栏： VQA

本文链接：https://blog.csdn.net/weixin_43326670/article/details/112905547

版权

本文探讨了VQA（视觉问答）的基本深度学习模型和基于注意力机制的模型，包括Vanilla VQA、Up-Down、SAN、Hierarchical Co-Attention model和DAN。这些模型通过编码问题和图像，应用注意力机制进行特征融合，从而得到答案。Up-Down模型使用底部至上注意力，而SAN则采用堆叠注意力网络。Hierarchical Co-Attention模型通过层次协同注意力处理问题的不同层级。DAN引入双重注意力网络，用于多模式推理和匹配。再注意力模型利用答案信息改进关注点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本的深度学习模型

对问题和图片进行编码，再做特征融合，通过全连接和softmax得到答案。如Vanilla VQA，使用VGGNet和LSTM。

基本结构：对于图像侧，用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入，再通过全连接层变换到1024维，在问题侧，用词向量模型对每个问题字进行编码，供给两个隐藏层的LSTM，再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘，全连接加softmax得到每个答案的分数。
在这里插入图片描述

基于注意力机制的模型

up-down

最经典的是2017、2018年VQA challenge冠军的基本模型Up-Down模型。

bottom-up attention：用faster rcnn提取feature，得到k个区域的特征向量，一般每个2048维。
top-down attention：这个注意力机制的原型为soft attention 机制，本质上是为不同区域的图像特征赋予权重，决定了每个区域feature的权重。权重的获得： $a_i=w_a^T f_a([v_i,q])$

最低0.47元/天解锁文章