Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、

在这里插入图片描述

特征提取部分

  • BERT-large 1024维
  • DenseNet 342
  • OPENsmile 1582
  • z-normalization (怀疑就是这个导致准备率不高,测试一下)

DAE部分

  • 对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷积进行下取样
  • 对于声音, 使用全连接层即可 (对于声音,其实也是一个关于一组特征序列, 不知道为什么不使用Seq2Seq)

Loss设计部分

  • Reconstruction loss 重建loss

    • 减少encoder 的信息损失
  • Unsupervised Distribution Matching Loss

    • 因为同一样本不同模态的表示应该相近,所以可以进行半监督学习,具体方法是: 拿一些unlabeled的视频样本,然后提取出三个模态的特征,输入到encoder模块里,得到的表示应该相近(分布匹配
  • Supervised Emotion Classifcation Loss 分类loss

    • 没有特别的融合方法,把encoder出的表示拼接即可,算出分类、

Unpair 样本解决坍缩问题

全给匹配的样本反而会导致坍缩, 所以作者制造了一些不匹配的样品, 这些样本的三个模态的特征提取于不同的视频,所以它们的encoder表达必然距离远

其原因是:  因为一直给好的数据 模型只知道 变好的方向, 所以是单向的优化, 那么 肯定最后所有ecoder的结果都要向 零向量接近(距离最短), 所以要给一些坏的例子才行,  这样模型知道哪边是好,哪边是坏才比较好。

总结

这篇论文使用半监督学习,通过使用没有被标记的视频,来对自己的encoder进行训练,以得到更好的encoder表示,对于得到的每个模态的表示由于都是距离相近的一类向量,所以作者只是拼接起来,然后直接分类。

这篇文章没有注重模态的互补这一方向,没有share和private的概念,但是半监督学习的这一类方向是完全可以进行尝试的, 但这就意味着放弃模态的互补 这一方向,想看看能否进行结合。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值