多模态（multi-modal）和多视图（multi-view）有什么区别？

Gloriouszh

已于 2024-07-23 17:19:35 修改

阅读量268

点赞数 1

文章标签：人工智能深度学习机器学习

于 2024-07-23 17:18:01 首次发布

本文链接：https://blog.csdn.net/glorious69/article/details/140640241

版权

多模态（multi-modal）

多视图 (multi-view) 指的是同一对象或场景在不同的角度或视角下呈现出来的多个视图或数据源，例如从不同的位置、方向、传感器等采集到的图像、视频、声音、传感器数据等。
简单来说，一般是指同一个对象不同的表现形式。
例如A在近处正对着看，B在远处看，C在左边看，D在右边看，ABCD接收的相同性质的信息放在一起叫做多视图。

主要是看各路数据的本质形态是否存在区别。例如采用不同网络或者特征提取器处理过的原始输入得到的结果也会称为多模态数据。
多视图描述的必定是同一个对象，各个视角的数据是平行的，紧密联系的，比如一幅图像的颜色、纹理和形状等；而多模态未必描述的是同一对象，至少不一定是紧密联系的，比如源代码和代码的注释doc、视频动画和文本字幕、图片和图片的caption等。多视角可以当做是多模态的一个特例。

参考
https://www.zhihu.com/question/364465426/answer/2936300417
https://www.zhihu.com/question/364465426

关注