多模态(multi-modal)和多视图(multi-view)有什么区别?

多模态(multi-modal)

  • 多模态 (multi-modal) 指的是同一对象或场景 在不同的感官模态下呈现出来的多种信息,例如文本、‌图像、‌音频和‌视频等。
  • 简单来说,是指所表现出来的可能是不同的模态,但之间有联系。比如文本和对应的音视频。
  • 多模态数据的处理和应用需要考虑如何将不同模态之间的关联性和差异性加以利用和平衡,从而实现更高层次的特征提取、分类、检索等任务。
  • 例如A在看视频,B在听声音,C在看字幕,将ABC不同性质的数据放在一起叫做多模态;

多视图 (multi-view)

  • 多视图 (multi-view) 指的是同一对象或场景在不同的角度或视角下呈现出来的多个视图或数据源,例如从不同的位置、方向、传感器等采集到的图像、视频、声音、传感器数据等。
  • 简单来说,一般是指同一个对象不同的表现形式。
  • 例如A在近处正对着看,B在远处看,C在左边看,D在右边看,ABCD接收的相同性质的信息放在一起叫做多视图。

总结

  • 主要是看各路数据的本质形态是否存在区别。例如采用不同网络或者特征提取器处理过的原始输入得到的结果也会称为多模态数据。
  • 多视图描述的必定是同一个对象,各个视角的数据是平行的,紧密联系的,比如一幅图像的颜色、纹理和形状等;而多模态未必描述的是同一对象,至少不一定是紧密联系的,比如源代码和代码的注释doc、视频动画和文本字幕、图片和图片的caption等。多视角可以当做是多模态的一个特例。

参考
https://www.zhihu.com/question/364465426/answer/2936300417
https://www.zhihu.com/question/364465426

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值