多模态 Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

处理多模态缺失数据

Input

视觉模态

709-dimensional (通过OpenFace2.0得到)

文本模态

768-dimensional(通过一个12layer 768-hidden 12-head的 bert 得到)

声音模态

33-dimensional

Input sequence

这些特征被扔到多头注意力机制里去(自注意力机制)
E m = M H A ( K m , K m , K m ) , K m ∈ { X v , X a , X t } . (1) \begin{aligned}&E_m=\mathbf{MHA}(K_m,K_m,K_m),\\ &K_m\in\{X_v,X_a,X_t\}.\end{aligned}\tag{1} Em=MHA(Km,Km,Km),Km{Xv,Xa,Xt}.(1)
得到 Input sequence
X = [ E v ∣ ∣ E a ∣ ∣ E t ] \mathcal{X}=[E_v||E_a||E_t] X=[Ev∣∣Ea∣∣Et]

预训练网络 Pre-trained Network

E p r e = [ E v ∣ ∣ E a ∣ ∣ E t ] , P p r e = s o f t m a x ( F C ( E p r e ) ) . (3) \begin{aligned}\\ E_{pre}&=[E_v||E_a||E_t],\\ P_{pre}&=softmax(\mathbf{FC}(E_{pre})).\end{aligned} \tag{3} EprePpre=[Ev∣∣Ea∣∣Et],=softmax(FC(Epre)).(3)

用完整的三模态数据训练 训练完成后就冻结

编码器-解码器 网络 Encoder-Decoder Network(用于预测缺失模态)

X ⟶ ϕ F , F ⟶ ψ X ′ , \begin{aligned}\mathcal{X}\overset{\phi}{\longrightarrow}\mathcal{F},\\ \mathcal{F}\overset{\psi}{\longrightarrow}\mathcal{X}',\end{aligned} XϕF,FψX,

其中 X \mathcal{X} X表示输入 ϕ \phi ϕ表示encoder ψ \psi ψ表示decoder

三种用于编码-解码的网络架构

架构1:AE AutoEncoder

数学表示如下

其隐藏层大小如下

[300, 256, 128, 64, 128, 256, 300]
h i = { X , i = 0 R e L U ( F C ( h i − 1 ) ) , 0 < i ≤ 7 , (5) \begin{aligned}h_i=\left\{\begin{array}{ll}\mathcal{X},&i=0\\ ReLU(\mathbf{FC}(h_{i-1})),&0<i\le7\end{array}\right.\quad,\end{aligned} \tag{5} hi={X,ReLU(FC(hi1)),i=00<i7,(5)
其中encoder输出为 h 4 h_4 h4 decoder输出为 h 7 h_7 h7

架构2:MMIN Missing Modality Imagination Network

D M M I N = X + ∑ i = 1 5 X i ′ , E M M I N = F C ( [ F 1 ∣ ∣ F 2 ∣ ∣ . . . ∣ ∣ F 5 ] ) , (6) \begin{aligned}D^{MMIN}&=\mathcal{X}+\sum_{i=1}^5\mathcal{X}_i',\\ E^{MMIN}&=\mathbf{FC}([\mathcal{F}_1||\mathcal{F}_2||...||\mathcal{F}_5]),\end{aligned}\tag{6} DMMINEMMIN=X+i=15Xi,=FC([F1∣∣F2∣∣...∣∣F5]),(6)

架构3:TF Transformer-based encoder-decoder model

E T F = F N ( M H A ( X , X , X ) ) , D T F = F F N ( M H A ( F , F , F ) ) , F F N ( x ) = R e L U ( W 1 x + b 1 ) W 2 + b 2 ) , \begin{aligned}&E^{TF}=\textbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{X},\mathcal{X},\mathcal{X})),\\ &D^{TF}=\mathbf{F}\mathbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{F},\mathcal{F},\mathcal{F})),\\ &\textbf{F}\mathbf{F}\mathbf{N}(x)=ReLU(W_1x+b_1)W_2+b_2),\end{aligned} ETF=FN(MHA(X,X,X)),DTF=FFN(MHA(F,F,F)),FFN(x)=ReLU(W1x+b1)W2+b2),

(这里的 F \mathcal{F} F是怎么来的?)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值