#今日论文推荐# 300+篇文献,一文详解基于Transformer的多模态学习最新进展

最新推荐文章于 2024-07-25 19:51:53 发布

wwwsxn

最新推荐文章于 2024-07-25 19:51:53 发布

阅读量453

点赞数

分类专栏：深度学习文章标签：深度学习机器学习人工智能

原文链接：https://www.aminer.cn/research_report/62c255b47cb68b460fe2596b

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 300+篇文献,一文详解基于Transformer的多模态学习最新进展

Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 Transformer 的多模态学习已成为人工智能研究的热门话题。
本文对面向多模态数据的 Transformer 技术进行了全面调查。本文的主要内容包括：1）多模态学习、Transformer 生态系统和多模态大数据时代的背景；2）从一个几何拓扑视角进行 Vanilla Transformer、Vision Transformer 和 multimodal Transformer 的理论回顾；3）通过两个重要范式，即多模态预训练和特定多模态任务，对多模态 Transformer 应用的回顾；4）对多模态 Transformer 模型和应用所共有的共同挑战和设计的总结，以及 5）对社区的开放问题和潜在研究方向的讨论。

人工智能（AI）的最初灵感是模仿人类的感知，例如看、听、触、嗅。一般来说，模态通常与创建独特通信渠道的特定传感器相关联，例如视觉和语言。我们感官知觉的一个基本机制是能够共同利用多种感知数据模态，以便在动态不受约束的情况下正确地与世界互动，每种模态都作为具有不同统计特性的独特信息源。
例如，一张图像通过数千个像素呈现“大象在水中嬉戏”场景的视觉外观，而相应的文本用一个使用离散单词的句子描述这一时刻。从根本上说，多模态人工智能系统需要对多模态信息源进行摄取、解释和推理，以实现类似人类水平的感知能力。多模态学习（MML）是一种构建 AI 模型的通用方法，该模型可以从多模态数据中提取和关联信息。

论文题目：Multimodal Learning with Transformers: A Survey
详细解读：https://www.aminer.cn/research_report/62c255b47cb68b460fe2596bhttps://www.aminer.cn/research_report/62c255b47cb68b460fe2596b
AMiner链接：https://www.aminer.cn/?f=cs