Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

最新推荐文章于 2023-08-01 10:24:40 发布

B站：阿里武

最新推荐文章于 2023-08-01 10:24:40 发布

阅读量933

点赞数 2

分类专栏：多模态文章标签：多模态半监督学习情感分析

本文链接：https://blog.csdn.net/qq874455953/article/details/108652251

版权

21 篇文章 34 订阅

订阅专栏

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、

在这里插入图片描述

Reconstruction loss 重建loss
- 减少encoder 的信息损失
Unsupervised Distribution Matching Loss
- 因为同一样本不同模态的表示应该相近，所以可以进行半监督学习，具体方法是：拿一些unlabeled的视频样本，然后提取出三个模态的特征，输入到encoder模块里，得到的表示应该相近（分布匹配）
Supervised Emotion Classifcation Loss 分类loss
- 没有特别的融合方法，把encoder出的表示拼接即可，算出分类、

全给匹配的样本反而会导致坍缩，所以作者制造了一些不匹配的样品，这些样本的三个模态的特征提取于不同的视频，所以它们的encoder表达必然距离远

其原因是：  因为一直给好的数据 模型只知道 变好的方向， 所以是单向的优化， 那么 肯定最后所有ecoder的结果都要向 零向量接近（距离最短）， 所以要给一些坏的例子才行，  这样模型知道哪边是好，哪边是坏才比较好。

这篇论文使用半监督学习，通过使用没有被标记的视频，来对自己的encoder进行训练，以得到更好的encoder表示，对于得到的每个模态的表示由于都是距离相近的一类向量，所以作者只是拼接起来，然后直接分类。

这篇文章没有注重模态的互补这一方向，没有share和private的概念，但是半监督学习的这一类方向是完全可以进行尝试的，但这就意味着放弃模态的互补这一方向，想看看能否进行结合。

关注