全局观下局部约束的多模态情感计算网络的论文学习

全局观下局部约束的多模态情感计算网络的论文学习(利用张量融合和LSTM)

Locally Confined Modality Fusion Network with a Global Perspective for Multimodal Human Affective Computing
(2019 IEEE Transactions on Multimedia)
最近在学习多模态识别的相关知识,看了一篇有关张量融合的论文,希望可以记录一下。

简介

目前,情感计算是比较火热的研究方向,而情感识别中多模态的识别是现在进行情感计算的主流方法,也是比较热门的方向。多模态融合的方法主要分为两种:特征级融合和决策级融合。这篇文章运用了特征级融合的方法:对三种模态(语音、文本、视频)进行分别的经过各自的处理办法(这里是OpenSmile、CNN、3D-CNN)进行特征提取后,对三种模态的特征向量进行相应的张量融合操作,对张量融合的结果进行LSTM网络的时间关联处理,最后再进行分类。

在本篇文章中,采用了分段进行特征融合的方法,文章中的段有两个:“utterance”和“segment”,utterance是全局上按照话语的停顿分的可能代表着不同情感的话语段。文章以一个segment而segment才是本文的处理对象,它是特征向量分成的小段,大大减少了直接用张量融合的数据量。为了使得分好的段之间仍有联系,再使用跳跃式的长短时记忆网络进行时间维度上的前后文联系。
上面的方框是直接使用张量融合的结果,特征向量的维度非常多,下面的方框是本文的方法
上面的方框是直接使用张量融合的结果,特征向量的维度非常多,下面的方框是本文的方法;GIL和LIL都在图中分别作了解释。

操作

对视频片段进行话语级别的分段,论文中描述为“utterance”,分段的依据是按照视频中说话人的停顿。那么每段话语是具备三种模态,对这三种模态分别进行特征提取的处理,将提取后的特征向量作为本文特征融合网络的输入。即图中一开始的灰色、橘黄色和绿色段。
在这里插入图片描述
之后,作为三种模态的输入,各自的特征向量分别送给UC-LSTM网络,这是第一个LSTM网络,它的作用是使得三种模态的特征向量维度同一化。因为是LSTM嘛,所以保留了特征向量的时间的相关性。同时,它使得三种模态的特征向量的维度相同,方便进行分段(segment)。经过了UC-LSTM处理后,得到了图中的蓝色的特征向量组。它根据utterance的多少分为了很多部分。我们提取其中的一个utterance进行分析:一个utterance中是包含了三种模态,这三种模态的特征向量长度也对应是相同的,设置为k。对这些相同长度的特征向量进行分段(segment),每段长度相同为d,所以一共有n= k/d段。对第i段(0<i<n,i为整数)
三种模态的特征向量分别进行提取进行张量融合,也就是图中的立方体。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值