多模态 Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

Li___Yu

已于 2023-05-23 18:50:31 修改

阅读量525

点赞数

文章标签：深度学习人工智能

于 2023-03-31 21:49:23 首次发布

本文链接：https://blog.csdn.net/Li___Yu/article/details/129888867

版权

该文探讨了在不确定的缺失模态情况下，如何减轻多模态情感分析中的不一致性问题。通过使用预训练网络和三种不同的编码器-解码器架构（包括AutoEncoder、MissingModalityImaginationNetwork和Transformer-based模型），来预测和处理视觉、文本和声音模态的数据缺失。这些方法旨在提高多模态输入序列的处理能力，即便某些模态数据不可用。

摘要由CSDN通过智能技术生成

多模态数据缺失模态处理

Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

处理多模态缺失数据

Input

视觉模态

709-dimensional (通过OpenFace2.0得到)

文本模态

768-dimensional(通过一个12layer 768-hidden 12-head的 bert 得到)

声音模态

33-dimensional

Input sequence

这些特征被扔到多头注意力机制里去（自注意力机制）
$\begin{aligned}&E_m=\mathbf{MHA}(K_m,K_m,K_m),\\ &K_m\in\{X_v,X_a,X_t\}.\end{aligned}\tag{1}$
得到 Input sequence
$\mathcal{X}=[E_v||E_a||E_t]$

预训练网络 Pre-trained Network

$\begin{aligned}\\ E_{pre}&=[E_v||E_a||E_t],\\ P_{pre}&=softmax(\mathbf{FC}(E_{pre})).\end{aligned} \tag{3}$

用完整的三模态数据训练训练完成后就冻结

编码器-解码器网络 Encoder-Decoder Network（用于预测缺失模态）

$\begin{aligned}\mathcal{X}\overset{\phi}{\longrightarrow}\mathcal{F},\\ \mathcal{F}\overset{\psi}{\longrightarrow}\mathcal{X}',\end{aligned}$

其中 $\mathcal{X}$ 表示输入 $\phi$ 表示encoder $\psi$ 表示decoder

三种用于编码-解码的网络架构

架构1：AE AutoEncoder

数学表示如下

其隐藏层大小如下

[300, 256, 128, 64, 128, 256, 300]
$\begin{aligned}h_i=\left\{\begin{array}{ll}\mathcal{X},&i=0\\ ReLU(\mathbf{FC}(h_{i-1})),&0<i\le7\end{array}\right.\quad,\end{aligned} \tag{5}$
其中encoder输出为 $h_4$ decoder输出为 $h_7$

架构2：MMIN Missing Modality Imagination Network

$\begin{aligned}D^{MMIN}&=\mathcal{X}+\sum_{i=1}^5\mathcal{X}_i',\\ E^{MMIN}&=\mathbf{FC}([\mathcal{F}_1||\mathcal{F}_2||...||\mathcal{F}_5]),\end{aligned}\tag{6}$

架构3：TF Transformer-based encoder-decoder model

$\begin{aligned}&E^{TF}=\textbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{X},\mathcal{X},\mathcal{X})),\\ &D^{TF}=\mathbf{F}\mathbf{F}\mathbf{N}(\textbf{M}\mathbf{H}\mathbf{A}(\mathcal{F},\mathcal{F},\mathcal{F})),\\ &\textbf{F}\mathbf{F}\mathbf{N}(x)=ReLU(W_1x+b_1)W_2+b_2),\end{aligned}$

(这里的 $\mathcal{F}$ 是怎么来的？)

Li___Yu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
多模态 Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

Uncertain Missing Modalities 多模态数据缺失模态的处理)
复制链接

扫一扫