多模态 Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

该文探讨了在不确定的缺失模态情况下,如何减轻多模态情感分析中的不一致性问题。通过使用预训练网络和三种不同的编码器-解码器架构(包括AutoEncoder、MissingModalityImaginationNetwork和Transformer-based模型),来预测和处理视觉、文本和声音模态的数据缺失。这些方法旨在提高多模态输入序列的处理能力,即便某些模态数据不可用。
摘要由CSDN通过智能技术生成

Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

处理多模态缺失数据

Input

视觉模态

709-dimensional (通过OpenFace2.0得到)

文本模态

768-dimensional(通过一个12layer 768-hidden 12-head的 bert 得到)

声音模态

33-dimensional

Input sequence

这些特征被扔到多头注意力机制里去(自注意力机制)
E m = M H A ( K m , K m , K m ) , K m ∈ { X v , X a , X t } . (1) \begin{aligned}&E_m=\mathbf{MHA}(K_m,K_m,K_m),\\ &K_m\in\{X_v,X_a,X_t\}.\end{aligned}\tag{1} Em=MHA(Km,Km,Km),Km{Xv,Xa,Xt}.(1)
得到 Input sequence
X = [ E v ∣ ∣ E a ∣ ∣ E t ] \mathcal{X}=[E_v||E_a||E_t] X=[Ev∣∣Ea∣∣Et]

预训练网络 Pre-trained Network

E p r e = [ E v ∣ ∣ E a ∣ ∣ E t ] , P p r e = s o f t m a x ( F C ( E p r e ) ) . (3) \begin{aligned}\\ E_{pre}&=[E_v||E_a||E_t],\\ P_{pre}&=softmax(\mathbf{FC}(E_{pre})).\end{aligned} \tag{3} EprePpre=[Ev∣∣Ea∣∣Et],=softmax(FC(Epre)).(3)

用完整的三模态数据训练 训练完成后就冻结

编码器-解码器 网络 Encoder-Decoder Network(用于预测缺失模态)

X ⟶ ϕ F , F ⟶ ψ X ′ , \begin{aligned}\mathcal{X}\overset{\phi}{\longrightarrow}\mathcal{F},\\ \mathcal{F}\overset{\psi}{\longrightarrow}\mathcal{X}',\end{aligned} XϕF,FψX,

其中 X \mathcal{X} X表示输入 ϕ \phi ϕ表示encoder ψ \psi ψ表示decoder

三种用于编码-解码的网络架构

架构1:AE AutoEncoder

数学表示如下

其隐藏层大小如下

[300, 256, 128, 64, 128, 256, 300]
h i = { X , i = 0 R e L U ( F C ( h i − 1 ) ) , 0 < i ≤ 7 , (5) \begin{aligned}h_i=\left\{\begin{array}{ll}\mathcal{X},&i=0\\ ReLU(\mathbf{FC}(h_{i-1})),&0<i\le7\end{array}\right.\quad,\end{aligned} \tag{5} hi={X,ReLU(FC(hi1)),i=00<i7,(5)
其中encoder输出为 h 4 h_4 h4 decoder输出为 h 7 h_7 h7

架构2:MMIN Missing Modality Imagination Network

D M M I N = X + ∑ i = 1 5 X i ′ , E M M I N = F C ( [ F 1 ∣ ∣ F 2 ∣ ∣ . . . ∣ ∣ F 5 ] ) , (6) \begin{aligned}D^{MMIN}&=\mathcal{X}+\sum_{i=1}^5\mathcal{X}_i',\\ E^{MMIN}&=\mathbf{FC}([\mathcal{F}_1||\mathcal{F}_2||...||\mathcal{F}_5]),\end{aligned}\tag{6} DMMINEMMIN=X+i=15Xi,=FC([F1∣∣F2∣∣...∣∣F5]),(6)

架构3:TF Transformer-based encoder-decoder model

E T F = F N ( M H A ( X , X , X ) ) , D T F = F F N ( M H A ( F , F , F ) ) , F F N ( x ) = R e L U ( W 1 x + b 1 ) W 2 + b 2 ) , \begin{aligned}&E^{TF}=\textbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{X},\mathcal{X},\mathcal{X})),\\ &D^{TF}=\mathbf{F}\mathbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{F},\mathcal{F},\mathcal{F})),\\ &\textbf{F}\mathbf{F}\mathbf{N}(x)=ReLU(W_1x+b_1)W_2+b_2),\end{aligned} ETF=FN(MHA(X,X,X)),DTF=FFN(MHA(F,F,F)),FFN(x)=ReLU(W1x+b1)W2+b2),

(这里的 F \mathcal{F} F是怎么来的?)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值