全局观下局部约束的多模态情感计算网络的论文学习

最新推荐文章于 2024-07-30 18:25:35 发布

ohheysherry

最新推荐文章于 2024-07-30 18:25:35 发布

阅读量618

点赞数

分类专栏：情感识别文章标签：深度学习

本文链接：https://blog.csdn.net/ohheysherry/article/details/100082012

版权

情感识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

全局观下局部约束的多模态情感计算网络的论文学习（利用张量融合和LSTM）

Locally Confined Modality Fusion Network with a Global Perspective for Multimodal Human Affective Computing
（2019 IEEE Transactions on Multimedia）
最近在学习多模态识别的相关知识，看了一篇有关张量融合的论文，希望可以记录一下。

简介

目前，情感计算是比较火热的研究方向，而情感识别中多模态的识别是现在进行情感计算的主流方法，也是比较热门的方向。多模态融合的方法主要分为两种：特征级融合和决策级融合。这篇文章运用了特征级融合的方法：对三种模态（语音、文本、视频）进行分别的经过各自的处理办法（这里是OpenSmile、CNN、3D-CNN）进行特征提取后，对三种模态的特征向量进行相应的张量融合操作，对张量融合的结果进行LSTM网络的时间关联处理，最后再进行分类。

在本篇文章中，采用了分段进行特征融合的方法，文章中的段有两个：“utterance”和“segment”，utterance是全局上按照话语的停顿分的可能代表着不同情感的话语段。文章以一个segment而segment才是本文的处理对象，它是特征向量分成的小段，大大减少了直接用张量融合的数据量。为了使得分好的段之间仍有联系，再使用跳跃式的长短时记忆网络进行时间维度上的前后文联系。

上面的方框是直接使用张量融合的结果，特征向量的维度非常多，下面的方框是本文的方法；GIL和LIL都在图中分别作了解释。

操作

对视频片段进行话语级别的分段，论文中描述为“utterance”，分段的依据是按照视频中说话人的停顿。那么每段话语是具备三种模态，对这三种模态分别进行特征提取的处理，将提取后的特征向量作为本文特征融合网络的输入。即图中一开始的灰色、橘黄色和绿色段。
在这里插入图片描述
之后，作为三种模态的输入，各自的特征向量分别送给UC-LSTM网络，这是第一个LSTM网络，它的作用是使得三种模态的特征向量维度同一化。因为是LSTM嘛，所以保留了特征向量的时间的相关性。同时，它使得三种模态的特征向量的维度相同，方便进行分段（segment）。经过了UC-LSTM处理后，得到了图中的蓝色的特征向量组。它根据utterance的多少分为了很多部分。我们提取其中的一个utterance进行分析：一个utterance中是包含了三种模态，这三种模态的特征向量长度也对应是相同的，设置为k。对这些相同长度的特征向量进行分段（segment），每段长度相同为d，所以一共有n= k/d段。对第i段（0<i<n,i为整数）
三种模态的特征向量分别进行提取进行张量融合，也就是图中的立方体。