Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、
特征提取部分
- BERT-large 1024维
- DenseNet 342
- OPENsmile 1582
- z-normalization (怀疑就是这个导致准备率不高,测试一下)
DAE部分
- 对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷积进行下取样
- 对于声音, 使用全连接层即可 (对于声音,其实也是一个关于一组特征序列, 不知道为什么不使用Seq2Seq)
Loss设计部分
-
Reconstruction loss 重建loss
- 减少encoder 的信息损失
-
Unsupervised Distribution Matching Loss
- 因为同一样本不同模态的表示应该相近,所以可以进行半监督学习,具体方法是: 拿一些unlabeled的视频样本,然后提取出三个模态的特征,输入到encoder模块里,得到的表示应该相近(分布匹配)
-
Supervised Emotion Classifcation Loss 分类loss
- 没有特别的融合方法,把encoder出的表示拼接即可,算出分类、
Unpair 样本解决坍缩问题
全给匹配的样本反而会导致坍缩, 所以作者制造了一些不匹配的样品, 这些样本的三个模态的特征提取于不同的视频,所以它们的encoder表达必然距离远
其原因是: 因为一直给好的数据 模型只知道 变好的方向, 所以是单向的优化, 那么 肯定最后所有ecoder的结果都要向 零向量接近(距离最短), 所以要给一些坏的例子才行, 这样模型知道哪边是好,哪边是坏才比较好。
总结
这篇论文使用半监督学习,通过使用没有被标记的视频,来对自己的encoder进行训练,以得到更好的encoder表示,对于得到的每个模态的表示由于都是距离相近的一类向量,所以作者只是拼接起来,然后直接分类。
这篇文章没有注重模态的互补这一方向,没有share和private的概念,但是半监督学习的这一类方向是完全可以进行尝试的, 但这就意味着放弃模态的互补 这一方向,想看看能否进行结合。