多模态特征融合与多任务学习的特种视频分类

最新推荐文章于 2024-08-07 10:07:32 发布

今天又是充满希望的一天

最新推荐文章于 2024-08-07 10:07:32 发布

阅读量3.8k

点赞数 1

分类专栏： research 文章标签：暴力事件监测音视频融合多模态多模态融合深度学习

本文链接：https://blog.csdn.net/liupeng19970119/article/details/106313130

版权

research 专栏收录该内容

61 篇文章 10 订阅

订阅专栏

前言

这篇文章是这个月发布的，采用的方法和参考文献较新，具有一定的参考价值。通过阅读这篇应用型的创新论文，可以很好的对比之前的综述，找到自己的研究创新点。

摘要

特种视频（本文特指暴力视频）的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多
模态特征融合时未考虑语义一致性等问题，本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别
方法。首先，提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征；然后，构建具有语
义保持的共享特征子空间，以实现音视频多种模态特征的融合；最后，提出基于音视频特征的语义一致性度量和特种视
频分类的多任务学习特种视频分类理论框架，设计了对应的损失函数，实现了端到端的特种视频智能识别。实验结果表
明，本文提出的算法在ＶｉｏｌｅｎｔＦｌｏｗ和ＭｅｄｉａＥｖａｌＶＳＤ２０１５两个数据集上平均精度分别为９７．９７％和３９．７６％，优于已有研究。结果证明了该算法的有效性，有助于提升特种视频监控的智能化水平。

正文

引言

文章的开头介绍了为什么要研究暴力事件监测，介绍了暴力和研究暴力的意义。之后呢，文章又对之前的工作做出了一定的总结。作者觉得之前的工作大多方法是粗暴地将经典特征和深度神经网络自动提取的特征进行简单的拼接，而结合实际应用的场景采用有效的音视频特征提取方法效果会更好。第二段作者对决策融合和特征融合进行介绍，并强调特征融合如果采用的方法较为简单的话会产生语义鸿沟。因此将多模态特征经过变换投影到潜在的，共享的子空间效果更好。特征融合的方法由于可以看到更多的融合信息，可能在有些应用领域更适合多模态，但是建立统一的特征子空间比较难。
总的来说，无论是决策层融合还是特征层融合方法，在融合音视频信息时均没有考虑音视频特征语义一致性的问题。多模态特征之间有时具有语义一致性（以暴力视频为例，语义一致性可以理解为暴力音视频特征同时具有暴力场面描述的特点，或同时不具有暴力场景描述的特点）和信息互补，但有时多模态间信息是互相干扰的，融合它们甚至会有相反的效果。

这篇文章提出了一种基于音视频特征多任务学习的端到端暴力视频识别方法：提取具有时空相关性的音视频特征方法，构建具有语义保持的共享的特征子空间，提出了基于暴力音视频特征语义一致性度量和视频分类相结合多任务学习的暴力视频分类模型，实现了暴力音视频信息的有效融合与互补。

基于语义一致性的音视频融合方法识别暴力视频

下图是总的框架图，采用p3d+LSTM去提取视觉语义特征，vggish提取音频语义特征。在特征融合过程中通过分类标签和音视频语义一致性信息作为监督，自动学习音视频特征向共享子空间映射的矩阵，并实现分类。该方法是多任务学习，学习视频分类和音视频特征语义一致性。

在这里插入图片描述

音视频特征提取

基于Ｐ３Ｄ＋ＬＳＴＭ的暴力视频视觉语义特征提取

RGB帧通过Ｐ３Ｄ＋ＬＳＴＭ提取到表观信息随时空变化的视频语义特征。
光流通过Ｐ３Ｄ＋ＬＳＴＭ提取到运动信息随时空变化的视频语义特征。
基于ＶＧＧｉｓｈ网络的暴力视频音频语义特征提取
语谱图输入到VGGish,得到128维度特征。

基于语义一致性的多特征融合与暴力视频识别

对多种特征进行融合时，只有将具有相同语义的特征进行融合处理才能充分利用各类特征之间的信息互补性。但现有的研究方法只是单纯地基于视频标签来对特征融合层进行训练，没有考虑到各种特征之间可能存在语义不一致的情况，这导致在多特征融合过程中可能会出现特征信息相互“敌对”的问题，影响泛化能力。

在这里插入图片描述
融合阶段如上图所示，首先512+512的运动特征先融合到512维度，然后再和128的音频进行融合，具体维度是通过反复实验确定的，（突然明白自己论文好像搞错了一个东西！！！keras共享层是这个意思，后面查查别人怎么写这个共享特征子空间的!!!）。这篇文章的创新点在于在loss函数中设计了一致性判断，加强了共享特征子空间提取多模态信息的能力。

实验细节

violent数据集中由于没有原始音频，只验证了P3D+lstm的准确性。
在这里插入图片描述

ＭｅｄｉａＥｖａｌＶＳＤ２０１５数据集实验中自己增加了语义一致性标签，实验结果如下：

在这里插入图片描述
从下图中可以看出，相比较之前的方法提升了不少

文中描述了语义一致性的特征前融合可以识别之前方法误判的视频，结果如下，内容参照原文。

在这里插入图片描述

结论

针对暴力音视频特征融合时未考虑语义一致性的问题，本文提出了一种基于音视频特征多任务学习的端到端暴力视频分类方法。首先提取暴力视频在单帧图像、运动信息及音频方面的多种特征，即采用Ｐ３Ｄ＋ＬＳＴＭ网络提取具有时空特征的表观和运动的语义特征，基于ＶＧＧｉｓｈ网络获得暴力视频音频语义特征，而后在融合暴力音视频特征中，以构建具有语义保持的共享特征子空间为出发点，提出了基于语义一致性度量及多任务学习的特征融合方法，形成了以判断暴力视频分类和音视频语义一致性两种任务共同学习的暴力视频分类框架。最后，提出的算法在两个公开暴力视频数据集进行了测试，均取得较好的实验结果，其中在Ｍｅ－ｄｉａＥｖａｌＶＳＤ２０１５数据集上平均正确率达到了３９．７６％，优于已有暴力视频判别算法。实验结果充分证明了本文提出的暴力视频多特征融合及分类算法的有效性。目前的暴力视频分类主要依靠从有限的标注训练数据中获得的暴力视频特征，但是该方法学习到的特征和知识受限于训练数据规模和分布，下一步将考虑构建暴力视频的知识图谱，将知识图谱的外部先验信息嵌入到深度模型的网络结构中，探索外部知识和标注数据信息的有效融合，进一步提升暴力视频分类性能。