【精华】多模态研究学习

LeeZhao@

已于 2022-08-04 13:46:45 修改

阅读量1.3k

点赞数 2

分类专栏：多模态学习文章标签：学习人工智能深度学习

于 2022-07-14 17:03:03 首次发布

本文链接：https://blog.csdn.net/qq_36722887/article/details/125788295

版权

多模态学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

- - - 多模态研究学习

多模态研究学习

2021年诺贝尔生理学、医学奖揭晓，获奖者是戴维·朱利叶斯（DavidJulius）和阿代姆·帕塔博蒂安（Ardem Patapoutian），表彰他们在“发现温度和触觉感受器”方面作出的贡献。那作为算法从业者，我们该思考些什么呢？人在感知这个世界的时候，主要的方式就是视觉，嗅觉，听觉等等。其中语音，文字和图像是最重要的传播载体，这三个领域的研究也都在这几年得到了快速的发展，今天我们就来看看其交叉的领域即文字+图像的图文多模态，其实多模态涉及的领域很多，目前主流的是文字+图像这一分支。从2018年Bert横空出世以后，以预训练模型为基石的各个领域百花齐放，下面梳理的多模态预训练模型也是在这样一个背景下诞生的，具体大概是从2019年开始涌现的。主要包括VILBERT、B2T2、LXMERT、VisualBERT、Unicoder-VL、VL-BERT、UNITER、Pixel-BERT、ERNIE-ViL、UNIMO、CLIP、FLAVA、ERNIE-VILG、X-VLM、OFA、STA等。目前布局在这一赛道的公司包括：腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。

多模态储备知识—数据模态

数据模态主要包括RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi等
在这里插入图片描述

8 Text2Images or Text2Video

NUWA-Infinity(微软亚研院)一>2022.03
Parti(谷歌)一>2022.04
Imagen(谷歌)一>2022.05
CogVideo(智源)一>2022.05
DALL·E2 (OpenAI)一>2022.06

9 多模态数据集

在这里插入图片描述

Ego-4D
Facebook开源的Ego 4D（Egocentric 4D Perception）计划数据集，该计划是对第一人称或“以自我为中心”的视频进行分析，由两个主要部分组成：一个开放的以自我为中心的视频数据集和一系列Facebook将在未来赋予AI系统的基准。
Facebook与全球9个国家13所大学和实验室合作收集数据。最新数据显示总共有大约3,205小时的镜头，由居住在9个不同国家的855名参与者录制。参与者佩戴GoPro相机和AR眼镜来录制无脚本活动的视频，视频内容包括建筑工作、烘焙、与宠物玩耍和与朋友交往等行为。
JRDB
斯坦福视觉与学习实验室研究团队在一篇名为「JRDB：用于人类环境中导航的视觉感知的数据集和基准」的研究中介绍了他们从其社交移动操纵器 JackRabbot 收集的新颖数据集 JRDB。该数据集包括来自传统上代表性不足的场景（例如室内环境和行人区域）的数据，这些数据来自固定和导航机器人平台。数据集包括 64 分钟的多模式传感器数据，包括:
- 15 fps 的立体圆柱 360 度 RGB 视频
- 两个 Velodyne 16 激光雷达的 3D 点云
- 两个 Sick 激光雷达的线 3D 点云
- 音频信号
- 30 fps 的 RGBD 视频
- 360 度球形鱼眼镜头拍摄的图像
- 机器人车轮的编码器值