多模态特征融合与多任务学习的特种视频分类

前言

这篇文章是这个月发布的,采用的方法和参考文献较新,具有一定的参考价值。通过阅读这篇应用型的创新论文,可以很好的对比之前的综述,找到自己的研究创新点。

摘要

特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多
模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别
方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然 后,构 建 具 有 语
义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视
频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表
明,本文提出的算法在 ViolentFlow 和 MediaEvalVSD2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。

正文

引言

文章的开头介绍了为什么要研究暴力事件监测,介绍了暴力和研究暴力的意义。之后呢,文章又对之前的工作做出了一定的总结。作者觉得之前的工作大多方法是粗暴地将经典特征和深度神经网络自动提取的特征进行简单的拼接,而结合实际应用的场景采用有效的音视频特征提取方法效果会更好。第二段作者对决策融合和特征融合进行介绍,并强调特征融合如果采用的方法较为简单的话会产生语义鸿沟。因此将多模态特征经过变换投影到潜在的,共享的子空间效果更好。特征融合的方法由于可以看到更多的融合信息,可能在有些应用领域更适合多模态,但是建立统一的特征子空间比较难。
总的来说,无论是决策层融合还是特征层融合方 法,在融合音视频信息时均没有考虑音视频特征 语义一致性的问题。多模态特征之间有时具有语义一致性(以暴力视频为例,语义一致性可以理解为暴力音视频特征同时具有暴力场面描述的特点,或同时不具有暴力场景描述的特点)和信息互补,但有时多模态间信息是互相干扰的,融合它们甚至会有相反的效果。

这篇文章提出了一种基于音视频特征多任 务学习的端到端暴力视频识别方法:提取具有时 空相关性的音视频特征方法,构建具有语义保持 的共享的特征子空间,提出了基于暴力音视频特征语义一致性度量和视频分类相结合多任务学习的暴力视频分类模型,实现了暴力音视频信息的有效融合与互补。

基于语义一致性的音视频融合方法识别暴力视频

下图是总的框架图,采用p3d+LSTM去提取视觉语义特征,vggish提取音频语义特征。在特征融合过程中通过分类标签和音视频语义一致性信息作为监督,自动学习音视频特征向共享子空间映射的矩阵,并实现分类。该方法是多任务学习,学习视频分类和音视频特征语义一致性。

在这里插入图片描述

音视频特征提取

基于 P3D+LSTM 的暴力视频视觉语义特征提取

RGB帧通过P3D+LSTM 提取到表观信息随时空变化的视频语义特征。
光流通过P3D+LSTM 提取到运动信息随时空变化的视频语义特征。
基于 VGGish网络的暴力 视 频 音 频 语 义特征提取
语谱图输入到VGGish,得到128维度特征。

基于语义一致性的多特征融合与暴力视频识别

对多种特征进行融合时,只有将具有相同语义的特征进行融合处理才能充分利用各类特征之间的信息互补性。但现有的研究方法只是单纯地基于视频标签来对特征融合层进行训练,没有考虑到各种特征之间可能存在语义不一致的情况,这导致在多特征融合过程中可能会出现特征信息相互“敌对”的问题,影响泛化能力。

在这里插入图片描述
融合阶段如上图所示,首先512+512的运动特征先融合到512维度,然后再和128的音频进行融合,具体维度是通过反复实验确定的,(突然明白自己论文好像搞错了一个东西!!!keras共享层是这个意思,后面查查别人怎么写这个共享特征子空间的!!!)。这篇文章的创新点在于在loss函数中设计了一致性判断,加强了共享特征子空间提取多模态信息的能力。

实验细节

violent数据集中由于没有原始音频,只验证了P3D+lstm的准确性。
在这里插入图片描述

MediaEvalVSD2015 数 据 集 实 验 中自己增加了语义一致性标签,实验结果如下:

在这里插入图片描述
从下图中可以看出,相比较之前的方法提升了不少
在这里插入图片描述

文中描述了语义一致性的特征前融合可以识别之前方法误判的视频,结果如下,内容参照原文。

在这里插入图片描述

结论

针对暴力音视频特征融合时未考虑语义一致性的问题,本文提出了一种 基于音视频特征多任务学习的端到端暴力视频分类方法。首先提取暴力视频在单帧图像、运 动信息及音频方面的多种特征,即采用P3D+LSTM 网络提取具有时空特征的表观和 运 动 的 语 义 特 征,基 于VGGish网络获得暴力视频音频语义特征,而后在融合暴力音视频特征中,以 构建具有语义保持的共享特征子空间为出发点,提 出了基于语义一致性度量及多任务学习的特征融合方法, 形成了以判断暴力视频分类和音视频语义一致 性两种任务共同学习的暴力视频分类框架。最 后,提出的算法在两 个公开暴力视频数据集进行了测试,均取得较好的实验结果,其中在 Me- diaEvalVSD2015 数据集上平均正确率达到了39.76% ,优于已有暴力视频判别算法。实验结果充分证明了本文提出的暴力视频多特征融合及分类算法的有效性。目前的暴力视频分类主要依靠从有限的标注训练数据中获得的暴力视频特征,但是该方法学习到的特征和知识受限于训练数据规模和分布, 下一步将考虑构建暴力视频的知识图谱,将知识图谱的外部先验信息嵌入到深度模型的网络结构中,探索外部知识和标注数据信息的有效融合,进 一步提升暴力视频分类性能。

收获

思考

1 学习该方法,用于自己论文中,进一步提升acc.
2 感觉自己的婴儿哭声融合学习并没有学习到太多融合信息,联系到婴儿哭声中如何进行多任务学习,提高特征子空间的相关性。做完之后用特征分布图看一看。

问题

  1. 语义一致性是怎么判断的,通过标签吗,好像没有具体介绍?我的初步理解是通过单模态对每个数据的音视频打标签,但是这样就太麻烦了。
  2. 实验细节介绍的很详细,但是没有demo,输入音频一次性输入多少,视频一次性输入多少,虽然感觉文中单独有介绍,但貌似没有连接到一起说明。
  3. 如何查阅参考文献,思考作者如何一步步通过查阅文献了解到这种程度的,并产生idea.
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值