多模态VQA24

东方未明源

已于 2022-11-23 17:03:31 修改

阅读量348

点赞数

文章标签：深度学习人工智能

于 2022-11-23 17:02:03 首次发布

本文链接：https://blog.csdn.net/weixin_43120420/article/details/128003867

版权

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.

1 VQA痛点（领域问题）

1.1对各个模态之中的语义信息进行有效的挖掘；embedding & knowledge injection & extraction

1.2建立各模态之间的准确关联和对齐；alignment

1.3高效地融合模态信息和答案推理。Fusion & inference

2 RS-VQA痛点（针对遥感）

2.1在RSVQA数据集中没有对象注释，这使得模型很难利用信息区域表示。小痛点，attention解决

2.2在RSVQA任务中，每个图像都有不同难度的问题。直接用随机顺序的问题训练模型可能会混淆模型并限制性能。Easy 2 Hard inference 标注形式，问题塑造解决

2.3 难标注问题，语义信息获取不直观 & 长尾问题。（种类和QA形式，例如：Yes/No）

2.4 RSVQA要从驳杂的遥感图像中提取信息，非专家可以直接获得高阶信息。（RSVQA实际价值，小小点）

2.5数据集缺乏多样性，且多为半自动标注。（数据集驱动）

3 ORS-VQA痛点（针对海洋）

待定

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

东方未明源

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM - 放射性医疗领域的多模态 VQA-RAD 评估集(开源) 简介

AGI

12-27

939

VQA-RAD 数据集标注精细，维度丰富，图像来源于 Medpix (即美国的开源放射医学教案数据库)。在每个案例中，选择有代表性的一张图片，确保数据集中每张图片对应独特的病人。确保图片的质量，选择的每张图片都是人工审核，确保没有医学标记、结构足够清晰、以及文本信息可以描述图片。专业的临床医师，按照先自由提问再规范化，对于至少40张图片进行标注，最后，确认问题的类型。这些设计，使得问题保留自然语言的流畅性，同时，也符合数据利用的规

【有啥问啥】多模态理解大模型之视觉问答 (VQA) 技术详解

Chauvin的博客

02-10

2093

顾名思义，视觉问答 (VQA) 任务的目标是让机器能够观看图像，并回答关于图像内容的自然语言问题。图像内容描述性问题: “图中的动物是什么？”、“图中人物在做什么？图像属性判断性问题: “图中天空是晴朗的吗？”、“图中的食物是热的吗？图像计数问题: “图中有几只猫？”、“图中有多少辆车？开放式问题: “这张图片表达了什么情感？”、“根据图片，接下来可能会发生什么？VQA 任务的输入是：一张图像 (Image) 和一个关于该图像的自然语言问题 (Question)。

1 条评论您还未登录，请先登录后发表或查看评论

多模态VQA模型-Img2LLM模型

weixin_43480889的博客

05-17

2440

Img2LLM模型论文介绍

5分钟让你在大火的多模态领域权威榜单VQA上超越人类

数据库技术

09-07

677

ModelScope上开源了达摩院众多业界最强多模态模型，其中就有首超人类的多模态视觉问答模型mPLUG，小编从页面体验（一探）、开发体验（二探）、开放测试（三探）来探究多模态预训练模型能力。

AAAI2024最佳解读|EarthVQA Towards Queryable Earth via Relational Reasoning-Based Remote Sensing

最新发布

paixiaoxin的博客

03-10

579

本文提出了EarthVQA，一个多模态多任务的视觉问答（VQA）数据集，旨在通过关系推理来提升遥感图像的问答能力。EarthVQA数据集包含6000张图像、相应的语义掩码和208,593个问答对，涵盖城市和农村治理需求。为了解决现有VQA方法在复杂场景中对物体关系的忽视，本文提出了语义物体感知框架（SOBA），该框架通过分割网络生成物体语义，并利用对象引导的注意力机制进行关系建模。实验结果表明，SOBA在多个任务中优于现有的通用和遥感方法，展示了其在复杂地球视觉分析中的潜力。

【文献阅读】MUTAN——多模态塔克融合VQA模型（Hedi Ben-younes等人，ArXiv，2017，有代码）

QQ704630835的博客

06-04

4220

一、背景文章题目：《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》 17年的一篇文章，不过后面看到很多文献引用了这篇，所以还是记录一下。文章下载地址：https://arxiv.org/pdf/1705.06676.pdf 文献引用格式：Hedi Ben-younes, R´emi Cadene, Matthieu Cord and Nicolas Thome. (2017) "MUTAN: Multimodal Tu

【多模态】38、DT-VQA | 专为提升多模态大模型的密集文本场景能力的数据集

呆呆的猫的博客

06-07

1612

本文主要介绍 DT-VQA

多模态论文导读--VQA视觉问答经典论文：（快速实现）Simple Baseline for Visual Question Answering

qq_15534667的博客

12-09

2156

我们基于词袋特征（bag-of-words）建立了一种非常简单的VQA的baseline，即将问题的单词特征与图片的CNN特征进行拼接来预测答案。其在具有挑战性的VQA数据集上与最近的基于循环神经网络的方法都性能具有可比较性。为了进一步探讨这种模型的优缺点，我们对外提供了一个可交互的web的demo并进行代码开源。将自然语言处理与计算机视觉领域结合，进行高级场景理解是最近的主要去向，如字幕生成等。这些工作的诞生主要是受到深度学习在视觉识别领域的快速发展与最近大型图像与语言数据集的诞生。

深度学习神经网络学习笔记-多模态方向-09-VQA: Visual Question Answering

CSDNXXCQ的博客

05-22

2358

我们提出了自由形式和开放式视觉问答(VQA)的任务。给定一张图像和一个关于图像的自然语言问题，任务是提供一个准确的自然语言答案。镜像现实场景，比如帮助视障人士，问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域，包括背景细节和底层上下文。因此，在VQA上取得成功的系统通常需要比生成通用图像标题的系统更详细地了解图像和复杂的推理。此外，VQA适合自动评估，因为许多开放式答案只包含几个单词或一组封闭的答案，这些答案可以以多项选择的形式提供。

python语言是多模态语言吗_MUREL (CVPR 2019), 视觉问答VQA的多模态关系推理

weixin_39705018的博客

12-22

281

MUREL: Multimodal Relational Reasoning for Visual Question AnsweringThe MuRel network is a Machine Learning model learned end-to-end to answer questions about images. It relies on the object bounding ...

easy-VQA:Easy Visual Questioning Answering数据集

05-04

易vqa Easy Visual Question Answering（easy-VQA）数据集的官方存储库。包含：数据集的官方用于生成数据集的源代码阅读以获取更多信息。关于数据集 easy-VQA包含 4,000张火车图像和38,575条火车问题。 1,000个测试图像和9,673个测试问题。总共13个可能的答案。 28,407个是/否的培训问题。 7,136个是/否的测试问题。所有图像均为64x64彩色图像。查看在数据集上训练的模型的。范例图片（以上这些图片链接仅适用于Github ）示例问题矩形是什么颜色？图像中是否包含三角形？没有蓝色的形状吗？图像包含什么形状？安装套件 pip install easy-vqa 使用包装问题每个问题分为三个部分：问题文字答案图片编号问题获取器为3个部分中的每个部分返回对应

VQA不只需要图片，还需要外部知识！华盛顿大学&微软提出提出REVIVE，用GPT-3和Wikidata来辅助回答问题！...

我爱计算机视觉

06-28

529

关注公众号，发现CV技术之美本文分享『REVIVE: Regional Visual Representation Matters in Knowledge-BasedVisual Question Answering』，VQA不只需要图片，还需要外部知识！华盛顿大学&微软提出提出REVIVE，用GPT-3和Wikidata来辅助回答问题！详细信息如下：论文链接...

LLM | 论文精读 | AAAI | EarthVQA：向可查询地球迈进的多模态视觉问答研究

m0_62716099的博客

11-03

1429

EarthVQA 是一个用于地球遥感场景理解的多模态视觉问答（VQA）数据集，包含 6000 幅高分辨率遥感图像及 208,593 对问答对。该项目旨在推动复杂地理场景中对象关系推理的研究。为此，我们提出了对象感知的语义框架（SOBA），通过深度语义分割和混合注意力机制提升模型性能。在实验中，SOBA 在对象计数和关系推理任务上表现出色，显著优于现有方法。本文详细介绍了 EarthVQA 数据集设计、SOBA 框架的构建及各模块的性能贡献，为遥感信息智能化提供了新方向。

视觉问答（Visual_Question_Answering, VQA）介绍

ZauberC的博客

03-18

5105

VQA任务定义如下：给机器输入一张图片和一个跟这幅图片相关的问题，机器需要根据图片信息对问题进行回答。训练阶段，需要先在一个由图像，问题，答案组成的三元组集上训练一个模型。测试阶段，给该预训练模型输入一张新的图像和一个新的问题，要求模型能够预测正确的答案。设模型参数为，则该任务的目标为求取!对于open-Ended问题，机器的输出是自然语言（算法需要生成一个字符串来回答问题）。对于multi-choice问题，机器挑选出正确答案。

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 2

Paper weekly

05-21

2166

作者信息王军杰粤港澳大湾区数字经济研究院（IDEA研究院）实习研究博士生清华大学2021级客座学生、早稻田大学博士生（指导老师：杨余久、酒井哲也）总体结构● VQA任务是什么●介绍之前的模型和方法● 欢迎来到Transformer的时代2019：尝试多模态表征2020：拥抱多模态表征2021：统一构架的探索● 下游任务（VQA等）● 更多其他有趣的论文本Part 2主要...

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细附数据集和源码）

showswoller的博客

11-24

1437

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细附数据集和源码）