一、什么是模态
在人工智能领域,模态(Modality)、跨模态(Cross-modality)和多模态(Multimodality)是描述数据类型和数据处理方式的重要概念。模态指的是信息的表现形式或感官通道。在日常交流中,我们使用多种模态来传递信息,例如语言(听觉模态)、文字(视觉模态)、肢体语言(视觉模态)和声音(听觉模态)。在人工智能中,模态通常指的是数据的类型:
- 视觉模态:图像、视频
- 听觉模态:音频、语音
- 文本模态:文字
- 触觉模态:触觉反馈或通过触觉感知的数据
二、什么是跨模态/多模态
1、跨模态
跨模态指的是在不同模态之间进行信息转换或关联的过程。跨模态处理在人工智能中非常重要,因为它涉及到如何让机器理解和处理不同类型数据的问题。例如我们最常见的语音识别,就是一个听觉模态到文本模态的转换,还有最近很火的AIGC大模型文生图,就是文本模态到视觉模态的转换。跨模态的关键在于如何识别不同模态之间的语义差异,并准确地在它们之间进行信息映射。
2、多模态
多模态指同时使用或分析多种模态的数据。例如,在一个多模态的情感分析任务中,系统可能会同时考虑文本内容(文本模态)、说话人的语气(听觉模态)和面部表情(视