Context-Dependent Sentiment Analysis in User-Generated Videos 多模态个性分析阅读笔记

最新推荐文章于 2022-04-16 15:34:09 发布

B站：阿里武

最新推荐文章于 2022-04-16 15:34:09 发布

阅读量2k

点赞数 3

分类专栏：个性分析深度学习文章标签：个性分析多模态

本文链接：https://blog.csdn.net/qq874455953/article/details/106521878

版权

深度学习同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

个性分析

15 篇文章 4 订阅

订阅专栏

文章目录

1. 总览
2. 模型结构
3. 结论
4. 总结

1. 总览

这是2017年的一篇文章，ACL的会议论文。

这篇文章讲的是多模态的情感分析，在当前的研究中，通常把话语当成一个独立的部分，而不考虑话语前后的视频画面的关系，但其实对于一句话，他前后的画面变化其实也有一定的内在联系。

这篇文章提议出了一个基于lstm的模型，来使得这个话语能够捕捉他们环境中的上下文信息。

结果显示相较于之前的结果，此方法能够提升5%~10%的准确率，并且稳定性和鲁莽性更好。

2. 模型结构

模型包含两部分，第一部分是单模态的上下文无关的特征提取，第二部分是将第1部分提取到的特征喂入到一个lstm（称为Contextual LSTM ）网络中，使之能够在特征提取的时候运用到上下文的关系。最后将三个模态提取到的特征进行特征融合，最终预测得到结果。

2.1 上下文无关的特征提取

2.1.1 text-CNN 提取文本特征

文本的这些文本来自于这些说话的脚本，为了去提取文本的特征，作者引用了2014年Wrapped.提出的一个用于提取文本的CNN结构，首先将每一个句子都变成每一个单词向量的集合，这些词向量维度为300维，使用word2vec进行编码。然后经过多层卷积，+多个不同规格的卷积，最终得到特征结果。

2.1.2 openSMILE 提取声音特征

对于声音特征的提取使用Eyben 提出的openSMILE软件进行特征提取。他可以提取出声音的强度和声音亮度等特点，

2.1.3 3D-CNN 提取图像特征

作者使用Ji在2013年提出的3D-CNN（三维卷积）结构，用于提取视频画面的特征，作者假定这个模型不仅能够识别每一帧的特点，还能够有效的去，识别给定帧数范围画面的改变。

视频表示为（c， f， h， w）的四维向量 c表示颜色的通道数目，设置为3（RGB颜色三个通道）， f表示帧的数目，代表确定的帧， h 和 w 代表高和宽，确定像素点的位置。

使用三维的卷积进行特征提取，然后使用max-pooling 进行降维，得到一个300维度的向量。

2.2 上下文有关的特征提取

通过上面的上下文无关的特征提取，我们提取到了每一个语句对应的文字，语音和视频的单独特征表示，作者认为这些语句之间的前后上下文关系需要被提取出来，于是对每一个模态提取出来的句子，再输入到一个Contextual LSTM结构中得到一个上下文有关的特征，并预测得到结果，

2.2.1 Contextual LSTM 结构

在这里插入图片描述

Contextual LSTM 首先将数据输入到lstm中，得到了一个上下文有关的特征，然后再经过全连接层得到一个预测结果，然后再进行一个solfmax得到预测概率。

其中作者尝试了不同的LSTM，并分别进行了实验。同时在细节上Dropout, 以防止过拟合。

2.3 特征融合

在这里插入图片描述

对于特征的融合也有两种不同的方法，第1种是非层次化的框架结构，第2种是层次化的框架结构，

2.3.1 非层次化的框架结

在非层次化的框架结构中，我们直接将之前三个模态分别提取出的特征联合起来，然后喂入一个LSTM中。

2.3.1 层次化的框架结

图中显示是第2种方法，是一个层次化的结构。

一共分为两个级别，第1个级别，我们将每一个模态提取出的特征，单独放入LSTM中，得到一个上下文有关的单模态的特征向量表示，在第2个级别中，我们将第1个级别提出来的单模态的特征向量表示进行连接，然后再喂入到一个LSTM中，最终得到预测结果

这里模型的训练，级别1和级别2是单独分开的，不会相互影响，所以这并不是一个端对端的模型。

3. 结论

在这里插入图片描述

层次化模型相较于非层次化模型结果要好
模态更多准确率提升也越高
在lstm网络的选择中，bc-lstm结果最好

在这里插入图片描述

模型结果的准确率相较于最新模型准确率有提升，幅度较大
作者打算后面使用加入attention的lstm来进一步进行优化

4. 总结

此模型使用了一个层次化的结构。模型也是分为三个层次，第1个层次是单个模态之间的特征提取，它提取的是一些上下文无关的特征，这样的话简便了计算，同时也便于进行层次化处理。
当我们把每一个语句的每一个模态得到了一个上下文无关的特征向量时，我们需要探索语句之间的上下文关系，这里用到了lstm结构，这是一种常用的用于处理时序化数据以及探究语句之间的上下文关系的神经网络结构。
在特征融合方面，同样使用层次化，使用一个更高层次也就是多模态层次，将每一个模态得出的结果，再喂lstm结构，然后得到一个最后的预测结果。但是这里的话其实还是有一点小问题的，因为不同模态之间他们之间并没有先后关系。但是作者使用lstm，具体的原因没有说到。
层次化的思想值得借鉴、
同时相较于之前的论文模型，模型对于视频的处理也有了进一步的提高，增加了上下文的信息。
在文字语音视频方面的底层的特征提取方法，仍有提高的空间，例如在文字方面可以使用，bert模型进行一个无关上下文的特征提取

B站：阿里武

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Context-Dependent Sentiment Analysis in User-Generated Videos 多模态个性分析阅读笔记

文章目录1. 总览2. 模型结构2.1 上下文无关的特征提取2.1.1 text-CNN 提取文本特征2.1.2 openSMILE 提取声音特征2.1.3 3D-CNN 提取图像特征2.2 上下文有关的特征提取2.2.1 Contextual LSTM 结构2.3 特征融合2.3.1 非层次化的框架结2.3.1 层次化的框架结3. 结论4. 总结1. 总览这是2017年的一篇文章，ACL的会议论文。这篇文章讲的是多模态的情感分析，在当前的研究中，通常把话语当成一个独立的部分，而不考虑话语前后
复制链接

扫一扫