【精华】多模态研究学习

多模态研究学习

2021年诺贝尔生理学、医学奖揭晓,获奖者是戴维·朱利叶斯(DavidJulius)和阿代姆·帕塔博蒂安(Ardem Patapoutian),表彰他们在“发现温度和触觉感受器”方面作出的贡献。那作为算法从业者,我们该思考些什么呢?人在感知这个世界的时候,主要的方式就是视觉,嗅觉,听觉等等。其中语音,文字和图像是最重要的传播载体,这三个领域的研究也都在这几年得到了快速的发展,今天我们就来看看其交叉的领域即文字+图像的图文多模态,其实多模态涉及的领域很多,目前主流的是文字+图像这一分支。从2018年Bert横空出世以后,以预训练模型为基石的各个领域百花齐放,下面梳理的多模态预训练模型也是在这样一个背景下诞生的,具体大概是从2019年开始涌现的。主要包括VILBERTB2T2LXMERTVisualBERTUnicoder-VLVL-BERTUNITERPixel-BERTERNIE-ViLUNIMOCLIPFLAVAERNIE-VILGX-VLMOFASTA等。目前布局在这一赛道的公司包括:腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。

多模态储备知识—数据模态

数据模态主要包括RGB骨架深度红外序列点云事件流音频加速信号雷达WiFi
在这里插入图片描述

1 多模态综述

多模态综述

2 X-VLM

字节 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐

3 ERNIE-VILG

多模态生成模型ERNIE-VILG

4 FLAVA

最新图文大一统多模态模型:FLAVA

5 OFA

ICML 2022|达摩院多模态模型OFA,实现模态、任务和架构三个统一

6 STA

电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!

7 多模态行为识别综述

顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

8 Text2Images or Text2Video
9 多模态数据集

在这里插入图片描述

  • Ego-4D
    Facebook开源的Ego 4D(Egocentric 4D Perception)计划数据集,该计划是对第一人称或“以自我为中心”的视频进行分析,由两个主要部分组成:一个开放的以自我为中心的视频数据集和一系列Facebook将在未来赋予AI系统的基准。
    Facebook与全球9个国家13所大学和实验室合作收集数据。最新数据显示总共有大约3,205小时的镜头,由居住在9个不同国家的855名参与者录制。参与者佩戴GoPro相机和AR眼镜来录制无脚本活动的视频,视频内容包括建筑工作、烘焙、与宠物玩耍和与朋友交往等行为。

  • JRDB
    斯坦福视觉与学习实验室研究团队在一篇名为「JRDB:用于人类环境中导航的视觉感知的数据集和基准」的研究中介绍了他们从其社交移动操纵器 JackRabbot 收集的新颖数据集 JRDB。 该数据集包括来自传统上代表性不足的场景(例如室内环境和行人区域)的数据,这些数据来自固定和导航机器人平台。数据集包括 64 分钟的多模式传感器数据,包括:

    • 15 fps 的立体圆柱 360 度 RGB 视频
    • 两个 Velodyne 16 激光雷达的 3D 点云
    • 两个 Sick 激光雷达的线 3D 点云
    • 音频信号
    • 30 fps 的 RGBD 视频
    • 360 度球形鱼眼镜头拍摄的图像
    • 机器人车轮的编码器值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值