这一篇是讲 多模态情感分类的。
模型结构
- Low Rank Fusion
借用了 ACL2018 Efficient Low-rank Multimodal Fusion with Modality-Specific Factors论文中的Low Rank Fusion
ACL2018的模型如下
作者在此基础上, 使用LSTM 对序列数据进行压缩 (为什么是时间序列, 是如何用LSTM 进行压缩的, 这个论文没有讲清楚)
- Fusion-based Transformer
我们把三个模态的信息 经过LMF 得到融合后的信息, 然后对每个模态放到一个 Transformer中, 来做一个跨模态的attention, 然后得到的新的 融合向量 在进行self-attention, 使得得到最终的表示, 进行预测。