Efficient Multimodal T ransformer with Dual-Level Feature Restoration for Robust..个人理解

1-1.解决问题

Multimodal Sentiment Analysis (MSA)多模态情绪分析中
在未对齐的多模态数据中建模跨模态交互时效率低下
易受随机模态特征缺失的影响,这种情况通常发生在现实环境中

1-2.解决方案

Efficient Multimodal Transformer with Dual-Level Feature Restoration (EMT-DLFR)

  • 其中EMT: EMT employs utterance-level representations from each modality(文中h) as the global multimodal context(文中G) to interact with local unimodal features and mutually promote each other,实现未对齐的多模式数据的有效融合,避免了 local-local cross-modal interaction methods中的二次scaling cost,且有更好效果
  • 其中DLFR: 在incomplete modality setting中增加模型鲁棒性,使用DLFR
    – low-level feature reconstruction:用来implicitly鼓励模型从incomplete data中学习semantic information
    – high-level representations:将complete and incomplete data视为一个sample的2个view,使用siamese representation learning来explicitly提取high-level representations

2.算法

在这里插入图片描述

2-1.EMT

流程

  • 原数据complete/incomplete feature sequence Xm(m∈{l,a,v})分别被BERT,LSTM,LSTM被encode为Hm(m∈{l,a,v})。语义级表示utterance-level representation hm,对文本l,hl为BERT中的[CLS],ha,hv为Ha,Hv中最后一个time step的feature(但是看代码不长这样,ha,hv为LSTM中的两个输出,好像没有联系,没有包含关系,hl的BERT还没仔细看,但是不是直接写的[CLS]而是BERT输出的第一维数据)。
    在这里插入图片描述

  • H和h经过LN转换维度。H由Tm*dm转为Tm*d,h由dm转为d,这一步用来统一维度

  • EMT的每一层:相互促进单元mutual promotion unit MPU。MPU作用:使用G[0]和H[0]一层一层融合得到新的G和H。MPU具体:输入多模态的H和G进行MHCA和MHSA和FFN实现生成下一层的H和G,其中G[0]和H[0]是单独设置的,其他层的G和H是通过MPU数据组合得到。G通过将每个模态的带的G通过attention-based pooling layer得到。
    MPU单层介绍:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    MPU实际使用得到H和G
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 得到预测的情绪强度。用最后一层MPU得到的h和g(g为flattenG[L]得出,维度为R3d),进行连接,输入MLP,得到预测的情绪强度y’。
  • 计算losstask = | y - y’ |

2-2.Dual-level feature restoration

2-2-1.Low-level feature Reconstruction

  • 作用:隐式地鼓励model从incomplete multimodel input中学习semantic representation(看不懂,我看公式意思是,让incomplete的Z(MPU最后一步的H)经过MLP之后得到的r(Z),与H(对l)和X(对a和v),做smoothL1 loss)
    在这里插入图片描述

2-2-2.High-level feature attraction

这里不太懂,不懂为什么要设置p和q:作为一项手工制造pretext的task,low-level feature reconstruction不能让模型学习到语义信息,模型可能只用局部相邻信息来完成重建,而不是推测global语义。所以使用siamese representation learning来explicitly attract high-level representations of complete and incomplete views in the latent space在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2-3.总loss

在这里插入图片描述
对incomplete modality setting,在这里插入图片描述
对complete modality setting,在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值