学习经验
多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。
和朋友搭伙研究了多模态,学习了 深度之眼的多模态人类情感识别和多模态理解科研论文,思路清晰了,👇有自己总结的经验图
总结了一些经验,可自取
链接:https://pan.baidu.com/s/1eh8cj9-Pr63lK8hSbjJ3dg
提取码:ytk8
什么是多模态?
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。
顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。
目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。
这就涉及到图像和文本领域的内容。
多模态的任务和数据集有哪些?
多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
例如给定一张图片,可以完成以下任务:
一、VQA(Visual Question Answering)视觉问答
输入:一张图片、一个自然语言描述的问题
输出:答案(单词或短语)
二、Image Caption 图像字幕
输入:一张图片