2020-MULTIMODAL VIOLENCE DETECTION IN VIDEOS视频中的多模态暴力检测_audiovisual dependency attention for violence dete-CSDN博客

本文链接：https://blog.csdn.net/qq_41956697/article/details/116058860

本文探讨了视频中的暴力检测，通过分解暴力为多个子概念，分别利用视觉和音频特征进行分析。采用预处理技术提取光流和光加速度等特征，结合C3D、Inception v4和LSTM等模型进行视觉检测。音频检测则通过提取多种特征并用神经网络进行分类。最后，通过视听融合网络将两者结合，以提高暴力检测的准确性。实验表明，Inception v4在视觉部分表现出色，而浅层神经网络在音频部分效果最佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在本文中，作者旨在通过将暴力的主观概念分解为更客观的概念来解决暴力检测任务。
更细节的客观子概念。k=7，更具体地说，是血液、冷武器、爆炸、战斗、火、大部分武器、枪声的概念。对于每个概念，作者训练特定的神经网络：首先分析其视觉特征，然后分析其听觉特征，然后将这两个功能结合起来获得对子概念更好的理解。对K个子概念重复此步骤，最后使用融合网络将所有概念组合起来。作者的目标是开发一个视觉和音频特征表示的融合模型。
与本文提出方法最相关的工作是【17】提出的，该方法通过收集语音特征，利用dCNN技术获取视觉特征，这两个特征在后期融合阶段被进一步连接。最后利用标准分类器对视频中暴力场景进行分类识别。不同的是，我们的工作提出了一个独特的方法论融合步骤的后期阶段，以实现更多的视觉和听觉特征之间的相关性。
在这里插入图片描述