多模态(multi-modal)
- 多模态 (multi-modal) 指的是同一对象或场景 在不同的感官模态下呈现出来的多种信息,例如文本、图像、音频和视频等。
- 简单来说,是指所表现出来的可能是不同的模态,但之间有联系。比如文本和对应的音视频。
- 多模态数据的处理和应用需要考虑如何将不同模态之间的关联性和差异性加以利用和平衡,从而实现更高层次的特征提取、分类、检索等任务。
- 例如A在看视频,B在听声音,C在看字幕,将ABC不同性质的数据放在一起叫做多模态;
多视图 (multi-view)
- 多视图 (multi-view) 指的是同一对象或场景在不同的角度或视角下呈现出来的多个视图或数据源,例如从不同的位置、方向、传感器等采集到的图像、视频、声音、传感器数据等。
- 简单来说,一般是指同一个对象不同的表现形式。
- 例如A在近处正对着看,B在远处看,C在左边看,D在右边看,ABCD接收的相同性质的信息放在一起叫做多视图。
总结
- 主要是看各路数据的本质形态是否存在区别。例如采用不同网络或者特征提取器处理过的原始输入得到的结果也会称为多模态数据。
- 多视图描述的必定是同一个对象,各个视角的数据是平行的,紧密联系的,比如一幅图像的颜色、纹理和形状等;而多模态未必描述的是同一对象,至少不一定是紧密联系的,比如源代码和代码的注释doc、视频动画和文本字幕、图片和图片的caption等。多视角可以当做是多模态的一个特例。
参考
https://www.zhihu.com/question/364465426/answer/2936300417
https://www.zhihu.com/question/364465426