![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
VQA
文章平均质量分 79
@华风夏韵
这个作者很懒,什么都没留下…
展开
-
VQA视觉问答系列1-----概述
VQA视觉问答系列1:基础方法与模型VQA(可视化问答)常用数据集答案评估标准主流的模型与方法 开始写博客的时候比较有新鲜感,能坚持记录一些学习的过程、课程的随笔等等。后来忙着保研,忙完以后也一直懒得再更新博客,直到用github做了一个个人主页以后,才想着来给博客除除草。因为毕设要做VQA,读了很多相关论文,想着可以做一个系列,每篇博客记录几篇论文。 VQA(可视化问答) 形式:给一张图片和相关的问题,给出答案。cv和nlp的结合,一种难度较高的跨模态任务。 解码答案主要有两种不同的方式:一种将找到答原创 2021-01-06 13:36:07 · 787 阅读 · 0 评论 -
VQA视觉问答系列2-----基础方法与模型
VQA视觉问答系列2-----基础方法与模型基本的深度学习模型基于注意力机制的模型up-down 基本的深度学习模型 对问题和图片进行编码,再做特征融合,通过全连接和softmax得到答案。如Vanilla VQA,使用VGGNet和LSTM。 基本结构:对于图像侧,用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入,再通过全连接层变换到1024维,在问题侧,用词向量模型对每个问题字进行编码,供给两个隐藏层的LSTM,再利用全连接和tanh映射到1024维的向量。将两个特征向量逐元素相乘原创 2021-01-21 22:52:20 · 861 阅读 · 0 评论