多模态学习 - 视觉语言预训练综述-2023-下游任务、数据集、基础知识、预训练任务、模型

参考:
https://zhuanlan.zhihu.com/p/628840228
https://zhuanlan.zhihu.com/p/628994098
https://zhuanlan.zhihu.com/p/629996372
https://zhuanlan.zhihu.com/p/582424974
多模态学习 - 视觉语言预训练综述-2023-下游任务、数据集、基础知识、模型
1. 多模态介绍
多模态机器学习(multimodal learning )旨在处理和理解不同模态(诸如视觉、语言、听觉等)交织融合的信息
本文重点是视觉和文字语言
2. 下游任务和评价指标
(1)分类任务
视觉问答(visual question answering, VQA). 给予视觉输入(图像或视频), VQA代表了正确提供一个问题的答案的任务。它通常被认为是一项分类任务, 因为模型会从一个选择池中预测出最合适的答案。
视觉推理和组合式问答(visual reasoning and compositional question answering, GQA). GQA是VQA的升级版, 旨在推进自然场景的视觉推理研究[73]. 其数据集中的图像、问题和答案具有匹配的语义表示. 这种结构化表示的好处是答案的分布可以更加均匀, 我们可以从更多的维度分析模型的性能.
自然语言视觉推理(natural language for visual reasoning, NLVR): NLVR任务的输入是两张图像和一个文本描述, 输出是图像和文本描述之间的对应关系是否一致(即真、伪两个标签).
视觉蕴涵(visual entailment, VE): 在视觉蕴含任务中, 图像作为前提, 文本作为假设, 目的是判断前提是否能推理出假设, 即预测视觉信息是否在语义上包含了文本信息.
视觉常识推理(visual commonsense reasoning, VCR): VCR类似于VQA, 但相比于VQA, 模型需要在选择出一个正确回答之后, 还需要提供一个证明其答案的理由.
看图识物(grounding referring expressions, GRE): GRE的任务是给定一个文本参考, 对一个图像区域进行定位. 该模型可以为每个区域输出一个分数, 其中具有最高分数的区域被定位用作预测区域。
由于视觉语言预训练任务所包含的下游任务繁多, 表3中仅节选出最为常见的下游任务进行性能的统计与比较。表3中数据集NLVR2保留了NLVR的语言多样性, 同时也在NLVR的基础上采用了视觉上更为复杂的图像.

在VCR任务中, Q→A表示模型需要根据给出的视觉问题选择正确的答案, QA→R表示模型需要根据视觉问题和回答选择得出该答案的理由, Q→AR则表示模型在给定的视觉问题之后, 要先选择正确的答案, 随后还需要对作答的理由进行选择.
在这里插入图片描述
(2)检索任务
视觉-语言检索(vision-language retrieval, VLR). VLR涉及对视觉(图像或视频)和语言的理解, 以及适当的匹配策略。
它包括两个子任务:
视觉到文本和从文本到视觉的检索, 其中视觉到文本检索是根据视觉从更大的描述库中获取最重要的相关文本描述,
反之亦然. 常见视觉语言预训练模型对应检索型下游任务如表4所示, 包括视觉-语言检索和零样本(zero-shot)的视觉-语言检索.
其中, TR表示从视觉到文本的检索, IR表示从文本到视觉的检索. R@K (K=1, 5, 10)表示出现在排名前K个结果中与真值匹配的百分比, 其中, R@K 指代TR@K和IR@K.
在这里插入图片描述
(3)生成任务
视觉描述(visual captioning, VC). VC旨在为给定的视觉(图像或视频)输入生成语义和句法上合适的文本描述.
大规模新物体描述(novel object captioning at scale, NoCaps): NoCaps[74]扩展了VC任务, 以测试模型描述来自Open Images数据集的新物体的能力, 这些物体都未曾在训练语料库中出现过.
视觉对话(visual dialogue, VD): VD的任务形式是给定一个图像(或视频)、一个对话历史记录和一个用语言描述的问题, 并让模型为问题生成一个答案.
常见视觉语言预训练模型对应生成型下游任务如表5所示, 包括视觉描述和大规模新物体描述. 其中, CIDEr、BLEU-4、METEOR、SPICE为4个评价生成语句的指标.
在这里插入图片描述
(4)其他任务
**多模态情感分析(multi-modal sentiment analysis, MSA)**旨在通过利用多模态信号(如视觉、语言等)来检测其中的情感.
多模态机器翻译(multi-modal machine translation, MMT): 多模态机器翻译是一项包含翻译和文本生成的双重任务, 将文本从一种语言翻译成另一种语言, 并加入来自其他模态的额外信息, 即图像.
视觉语言导航任务(vision-language navigation, VLN)是让智能体跟着自然语言指令进行导航, 这个任务需要同时理解自然语言指令与视角中可以看见的图像信息, 然后在环境中对自身所处状态做出对应的动作, 最终达到目标位置.
光学字符识别(optical character recognition, OCR): OCR一般是指检测和识别图像中的文本信息, 它包括两个步骤: 文字检测(类似于回归任务)和文字识别(类似于分类任务).
此外, 还有一些与视频相关的下游任务, 用于评估视频-文本预训练模型, 包括动作分类(AC)、动作分割(AS)和动作步骤定位(ASL).
3. 数据集
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值