多模态入门

# 多模态 # 

定义

模态(Modality)是指一种语言学概念,用于描述说话人对某种语言表达的态度或语气。在语言学中,常见的模态包括实现可能性、必然性、推测性、建议性等。在英语中,常见的情态动词包括can、may、must、should、will等,它们可以表示说话人对某种语言表达的不同态度或语气,例如可能性、必要性、建议性、应该性等。模态也可以通过语气、修辞、语调等方式来表达。

多模态是指不同的数据形式输入,可以是完全不同类型的数据,比如CT和MRI;也可以是不同参数下的CT,或者不同时期的图像,定义较为宽泛,重点理解把握。

多模态原则:(1)不同模态之间是异构的,因此不同模态中的信息通常表现出不同的质量、结构。(2)多模态在下游任务的信息交互,相互存在关联、共享某些共性或具有复杂的相互作用,从而产生新的信息。异质性和互联是多模态研究的主要原则。

主要的研究问题

(1)表征(representation):研究如何表示和总结多模态数据,以反映各个模态元素之间的异质性和相互联系。表示融合:整合来自2个或更多模态的信息,有效减少单独表示的数量;表示裂变:创建一个新的不相交的表示集,通常比输入集大,反映了关于内部结构的知识,如数据聚类或因子分解。

(2)对齐(alignment):识别所有元素之间的连接和交互。模态之间的对齐具有挑战性,包括识别模态元素之间的连接;情境化表示学习以捕获模态连接和交互;处理具有模糊分割的模态输入。

(3)推理(reasoning):从多模态证据中合成知识,通常通过多个推理步骤,为特定任务利用多模态对齐和问题结构。这种关系通常遵循某种层次结构,其中更抽象的概念在层次结构中被定义得更高,作为不太抽象的概念的函数。推理涉及:对推理发生的结构进行建模;推理过程中的中间概念;理解更多抽象概念的推理范式;在结构、概念和推理的研究中利用大规模外部知识。

(4)生成(generation):学习生成过程,以生成反映每种模态的独特异质性和模态之间相互联系的原始模态。我们将其子挑战分为:总结多模态数据以减少信息内容,同时突出输入的最显著部分;创建:同时生成多种模式以增加信息内容,同时保持模式内部和跨模式的一致性。

(5)迁移(transference):在不同模态及其表示之间转移知识,通常是为了帮助目标模态,因为目标模态可能有噪音或资源有限。以下算法为例:跨模态传递,使模型适应涉及初级模态的下游任务,从一种模态(例如,预测标签或表示)学习的知识帮助在不同模态上训练的计算模型。

(6)量化(quantification):涉及实证和理论研究,以更好地理解异质性、模态互联和多模态学习过程。量化旨在了解:多模态数据集的异质性维度及其随后如何影响建模和学习;多模态数据库和训练模型中模态连接和交互的存在和类型;异构数据所涉及的学习和优化挑战。

理解

多模态数据的好处在于不同的模态本质上是不同的信息渠道(不同角度并且不容易存在冗余性的特征),来自多个模态的这些数据在语义上是相关的,有时会相互提供互补信息,从而反映出在单独使用各个模态时不可见的模式。

感兴趣的可以继续参考大佬的这篇文章:多模态 - 知乎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值