多模态multi-modal与多视图multi-view
举几个不同领域的例子来感受下吧!
Example 1
以传感器数据为例,多个传感器获取到的数据是多模态,而单个传感器在不同位置获取到的数据是多视图的
Example 2
CV领域中,一段视频和该视频的文字描述是多模态
,而对同一对象从不同视角拍摄的图片
或者对一张图片进行各种裁剪获得的图片是多视图
。
Example 3
NLP中,文本和文本的对应的音频是多模态
,
天津大学张长青老师的答案:
多视图包含多模态,多视图更接近机器学习,更抽象。多模态更接近于应用,与实际的某一个应用结合。
MAPLE(maple-lab.net)实验室齐国君老师的答案:
简单来说 multiview一般指同一个对象不同的表现形式
。比如一个3D物体不同角度或者不同频谱下的成像图像。multimodality指不同模态,它们所表现的可能是不同的对象,但之间有联系
。比如文本和对应的音视频。这两者之间最关键的区别是后者可能不是描述完全一样的物体或对象,所以往往需要有个预对齐或者建立两者间的对应关系,既correspondence。
笔者的补充:
之前看过一篇文章链接, 主要分析了深度学习中集成学习有效的原因,作者通过大量的分离实验得出结论:与传统的机器学集成学习success的原因(统计学角度,减小模型的方差)不同,深度学习中集成学习Success的原因是: 因为(图像)数据存在多视图
,作者进一步提出了多视图学习理论
来解释,并分析了集成学习和知识蒸馏的内在关联。
在多视图学习理论下,通过裁剪来扩充数据可以看成是产生多视图数据的一种方式
。