一. 什么是多模态?
模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。
1.1 背景
- Transformer颠覆传统模型,但限于单模态领域
- ViT的出现打通了CV和NLP之间壁垒,推动多模态演进,ViT中的Patch embedding在提取视觉特征方面效率优势明显
- 基于Vision Transformer,Video Transformer模型出现,如TimeSformer;
- Transformer权重共享决定其适合多模态,