VQA视觉问答系列2-----基础方法与模型

本文探讨了VQA(视觉问答)的基本深度学习模型和基于注意力机制的模型,包括Vanilla VQA、Up-Down、SAN、Hierarchical Co-Attention model和DAN。这些模型通过编码问题和图像,应用注意力机制进行特征融合,从而得到答案。Up-Down模型使用底部至上注意力,而SAN则采用堆叠注意力网络。Hierarchical Co-Attention模型通过层次协同注意力处理问题的不同层级。DAN引入双重注意力网络,用于多模式推理和匹配。再注意力模型利用答案信息改进关注点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本的深度学习模型

对问题和图片进行编码,再做特征融合,通过全连接和softmax得到答案。如Vanilla VQA,使用VGGNet和LSTM。

基本结构:对于图像侧,用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入,再通过全连接层变换到1024维,在问题侧,用词向量模型对每个问题字进行编码,供给两个隐藏层的LSTM,再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘,全连接加softmax得到每个答案的分数。
在这里插入图片描述

基于注意力机制的模型

up-down

最经典的是2017、2018年VQA challenge冠军的基本模型Up-Down模型。

bottom-up attention:用faster rcnn提取feature,得到k个区域的特征向量,一般每个2048维。
top-down attention:这个注意力机制的原型为soft attention 机制,本质上是为不同区域的图像特征赋予权重,决定了每个区域feature的权重。权重的获得: a i = w a T f a ( [ v i , q ] ) a_i=w_a^T f_a([v_i,q])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值