基于视觉的战斗检测监视摄像机（Vision-based Fight Detection from Surveillance Cameras）-CSDN博客

基于视觉的战斗检测监视摄像机（Vision-based Fight Detection from Surveillance Cameras）

基于视觉的动作识别是计算机视觉和模式识别最具挑战性的研究 课题之一。它的具体应用，即从公共区域、监狱等的监控摄像头中检 测打架事件，是为了迅速控制这些暴力事件。本文针对这一研究问题， 探索了基于 LSTM 的解决方法。此外，还利用了注意层。此外，还收 集了一个新的数据集，其中包括来自监控摄像机视频的战斗场景，可 在 YouTube 上获得。此数据集可公开提供 1。通过对 HockeyFight、 Peliculas 和新收集的战斗数据集的广泛实验，观察到该方法集成了 Xception 模型、Bi-LSTM 和注意，提高了战斗场景分类的最新精度。 索引术语-深度学习，动作识别，战斗检测。

I. 导言

暴力检测作为一个研究课题受到越来越多的关注，因为它有许多实际的用例。由于不幸的是，电影或媒体中的暴力场景已经司空见惯，而且由于年轻一代可以很容易地获得这些媒体内容，因此一组研究活动正在自动检测媒体内容中的暴力活动。另一个主要用例是检测公共区域的暴力活动，如地下，街道，公共汽车，医院，福利机构等。以便自动警告公职人员并对他们采取快速行动。暴力活动包含广泛的活动，例如破坏、爆炸和战斗。在这项研究中，我们重点讨论了战斗活动。战斗事件被定义为两个或两个以上的人，他们的战斗程度必须受到干扰。

相关方法包括特征提取和分类两部分。主要应用两种不同的方法进行特征提取：计算视频的光流信息和计算基于深度卷积神经网络的表示。由于卷积神经网络(CNN)在各种计算机视觉中的成功证明应用，基于 CNN 的方法是高度优先的最近的工作。长期短期记忆(LSTM)用于建模时间信息，因为它们通过记忆能力发现连续帧之间的关系。总之，CNN+LSTM 网络以其高性能被广泛应用于动作识别中。

在本研究中，为了增强基于 CNN+LSTM 的战斗检测任务方法，利用战斗场景对改进的 Xception CNN 进行了训练。因此，预计这个 CNN 更熟悉输入序列，并从它们中提取更相关的特征。在分类层中，利用双向 LSTM(Bi-LSTM)和自保持层开发了一种新的方法来提高性能。此外，还收集了一个新的监视摄像机战斗数据集。

论文的其余部分组织如下。第二节概述了相关工作。在第 3 节中，解释了所提出的方法的技术细节。第四节介绍并讨论了实验结果。在第 5 节中总结了所获得的结果，最后在第 6 节中总结了本文的结论。

II. 相关工作

动作识别最常见的深度学习解决方案之一是双流卷积网络 [1]。在该方法中，使用两个 CNN，一个用于空间特征提取，它从单个图像中学习动作，另一个用于时间特征提取，它从多帧的光流矢量中学习。然后，将两个网络的输出组合在最后。

Sudhakaran 和 Lanz 更倾向于使用卷积 LSTM 进行分类，以便以更好的方式[2]区分帧之间的时空变化。

徐等人。在图像字幕中使用注意力，方法是关注能够提供关于场景[3]中发生的事情的重要信息的对象。 Sharma 等人。在动作识别中使用注意来处理对输出[4]影响最大的特征。本工作采用 GoogleLeNet[5]进行特征提取，采用具有注意机制的多层深层 LSTM 进行分类。根据实验结果，注意层增强了 LSTM的性能。 Song 等人。将 LSTM 应用于骨架数据，其中视频序列中的受试者被表示为骨架，以识别人类的行为。此外，它们从注意层中受益，以便在帧[6]之间的时空变化方面关注样本骨架最活跃的关节。

Liu 等人。介绍了一种新类型的 LSTM，它被命名为全局上下文-AwareAttentionLSTM[7]。该方法是为了对骨架数据进行三维动作识别而开发的，其的是利用迭代注意方法选择样本中信息最丰富的关节。此外，它评估全局上下文，同时从框架中学习，与常规的 2DLSTM 不同。 Dong 等人。通过使用多流 CNNs[8]检测人与人之间的暴力行为。首先，CNNs 提取时空特征，然后再添加一个流来学习视频的加速度。因此，考虑到场景[8]的活动，可以对序列进行分类。Singh 等人。通过多流 CNN[9]从视频序列中提取不同类型的特征。在检测到帧中的人后，他们在被跟踪的人上构造一个包围框，并使用几个流从包围框和一般帧的内部获取运动特征。然后将特征输入到双向 LSTM 中，用于对动作进行分类。 Ullah 等人。使用各种 CNN 架构从视频序列[10]的帧中提取特征。特征从第二层到最后一层网络，并由双向 LSTM 分类。 3D 卷积神经网络也被用于视频序列[11][14]中的动作识别。 Peixoto 等人。使用 3D CNN 和 CNNLSTM 在视频中进行暴力检测。然后，将这两个网络的输出与另一个网络相结合，可以区分暴力[15]的不同概念。

在文献中，有几个公开的暴力检测数据集。例如， Technicolor 展示了他们的好莱坞电影数据集，其中包含来自 31 部电影[16]的暴力和非暴力序列。 Peliculas 数据集包含来自 You Tube 或电影[17]的各种战斗和非战斗视频。曲棍球数据集包括来自冰球比赛[17]的战斗和非战斗视频。另一个数据集是暴力流数据集，它包含多个暴力场景[18]。UCFCrimes 数据集包括不同的犯罪场景，如抢劫、氩、入室盗窃等。以及战斗[19]。最近在 2019 年[20]发布的数据集包含带有战斗

实例的监视摄像机视频。为了补充这些数据集，在本研究中，使用来自 YouTube 的监视摄像机脚构建了一个战斗数据集。

III. 拟议的方法

在下面的小节中，提出了该方法的特征提取和分类部分。

a. 特征提取模型

对各种类型的 CNN 架构进行特征提取部分的测试，如 VGG16[21]和 Xception[22]。 VGG16 以 224×224 像素分辨率图像作为输入。它在末端有三个完全连接的层。特征取自第二完全连接层。另一方面， Xception 接受 299×299 像素分辨率输入。特征最后一个全局平均池层中提取。此外，一个额外的 CNN 被训练用于战斗检测，它被命名为 Fight-CNN。使用 Hockey 数据集中的视频序列的战斗和非战斗帧进行训练。经过训练的 CNN 具有 Xception 体系结构，但最后一层被映射成两个类。此外，为了从战斗场景中捕捉更多的相关特性，内核大小也被拓宽了。具有 Xception 的新网络小于参数为 1100 万的常规模型。在分类层之前，它有两个完全连接的层，并且从第一个完全连接的层中提取特征。在发送用于特征提取的视频之前，从视频序列中采样帧。使用均匀采样，从每个视频中选择 5 或 10 帧。然后，使用三次插值将这些帧调整到网络体系结构的输入大小。

b. 分类模式

在分类部分，使用 Bi-LSTM，因为它可以学习过去和当前信息之间的依赖关系。然后，包括一个注意层，以确定输入的重要部分。

1) 长期短时记忆是一种用于序列学习任务[23]的方法。 LSTM 的内存使用能力不同于常规递归神经网络(RNN)。它在模块中的内存门使得保留必要的信息和忽略不相关的信息成为可能。通过考虑以前的数据，门根据其相关性选择传递或抛出数据的某些部分。换句话说，LSTM 中的门了解新信息在多大程度上取决于以前的信息。因此，可以学习序列元素之间的关系。在这种情况下，数据由图像序列组成，网络可以连接在与视频不同时间拍摄的帧中的信息。在此过程中，系统在检查当前帧时记住前一个帧。系统学习在视频处理过程中发生的时间变化，这些变化提供了重要的信息来识别这些动作。在 LSTM 实验中，使用了一个 LSTM 层、三个密集（1024、50、 2）和三个激活层(relu、Sigmoid、Softmax)的 LSTM 模型。在体系结构的最后，softmax 层与两个类一起使用，而不是用 Sigmoid 进行二进制分类。因此，可以观察到输出中的预测置信度。因此，将均方误差作为损失函数，得到了比交叉熵损失函数更好的结果。

2) Bi-LSTM：不同于常规的 LSTM，它只在根据先前信息确定输入的序列中具有前向流，Bi-LSTM有一个额外的向后流[24]。完成前向学习后，从最后一个元素到第一个元素处理一个后向学习。因此，在每个单元中，都保存过去和未来的信息，并通过考虑这些信息来确定产出。在用 Bi-LSTM 进行实验时，使用具有规则 LSTM 的相同体系结构与附加的 Bi-LSTM 层而不是 LSTM 层一起使用。此外，为了减少过度拟合，还应用了辍学。

3) 注意层：注意机制首先由 Bahdanau 等人介绍。在 2014 年[25]并通常用于 RNN 中的自然语言处理，以决定在处理当前单词时必须对其他单词给予多少关注。它也用于视觉问题，如图像字幕[26][28]和目标检测[29]。当注意层与双向 LSTM 一起使用时，它计算每个单元的权重来解释序列中的每个元素。计算每个元素的后向和前向层值，并影响其他元素的输出。注意层决定每个输出应该受到其他输入的影响。在观察过去和未来的信息后，它生成一个权重矩阵，该矩阵用于计算输出。自我关注[30]是本研究中使用的另一种关注机制。作者将注意力应用于输入数据，并试图以更方便的形式表示它，方法是在按顺序处理元素的同时，将注意力集中在数据的重要部分。例如，本研究中的输入数据是来自十个帧的特征向量。注意层在输入上执行，并考虑到注意矩阵和输入向量之间的关系，生成新的特征向量。之后，将新的特征向量发送到下一层进行分类。拟议系统的概述见图。 1

IV. 实验结果

在下面的小节中，我们首先解释使用的数据集和实验设置。然后，我们给出并讨论了实验结果。

A.数据集

1) 曲棍球比赛数据集：数据集包含冰球比赛中的战斗和非战斗场景。总共有 1000 个视频样本，其中 500 个是战斗序列，其他 500 个是非战斗序列。视频长两秒，帧大小不变。视频的背景都是相似的，它们包含背景运动。

2) Peliculas Dataset：它包括好莱坞电影中的打斗场面，足球比赛中的一些非战斗场面，以及其他事件。总共有 200个视频。其中 100 个是战斗视频，100 个是非战斗视频。视频的持续时间是两秒，帧的大小可能不同。视频中的环境和人是不同的，因为他们来自电影场景。这些视频也有背景运动。

3) 监视摄像机对抗数据集：此数据集是为本研究收集的。即使有一些战斗或暴力特定的数据集，这些数据集的主要样本是从电影或曲棍球比赛中提取的，它们对应于不同类型的场景。这些数据集可以帮助学习操作本身，但它们并不完全适合于指定的任务。曲棍球比赛现场记录中的演员看起来一模一样，背景本身变化不大。

然而，在监视应用中，场景中的人总是不同的，每个摄像机的镜头背景也不同。在电影和曲棍球比赛中，背景是移动的，因为拍摄技术，如放大/缩小。另一方面，监控摄像机大多静止，录音中的背景更稳定。从图中可以观察到差异。 2, 3, 4.

因此，一个包含来自监视摄像机镜头的战斗/非战斗序列的新数据集将补充现有的数据集。

在监控摄像机数据集中，总共有 300 个视频，其中 150 个是战斗序列，150 个是非战斗序列。监控摄像头的足迹主要是从 You Tube 收集的，一些监控摄像头数据集，如 CamNet[31]和 Synop sis 数据集[32]，[33]用于提取非对打视频切割。在收集视频后，从它们中切割 2 秒长的战斗/非战斗序列。视频有不同的大小和不同的帧数。因此，帧在发送到 CNNs 之前被调整大小。然后，通过考虑视频的总帧数，采用均匀采样，如图所示。 1. 表 1 总结了使用的数据集中的样本数量。无花果。 5. 来自收集的数据集的各种战斗场景。数据集中有各种类型的战斗场景，如踢、拳、用物体击打和摔跤。由于安全相机脚包含不同的光线和着色条件，这些变化也被考虑在内，以进一步增加数据集的多样性。此外，从不同的地方收集安全相机步行，如咖啡馆，酒吧，街道，公共汽车，商店等。这样，数据集中的多样性就得到了保证。战斗场景独立于监视摄像机的环境，如图所示。 5.

https://github.com/sayibet/fight-detection-survdatase

t.访问

b. 结果

每个实验都是针对每三个数据集进行的：Hockey、Peliculas 和监视摄像机数据集。对于特征提取部分，对 VGG16 和 Xception 体系结构进行了测试。此外，还使用 Hockey 数据集的战斗场景训练了修改后的 Xception 体系结构，并将其命名

为 Fight CNN。

对于分类部分，常规 LSTMS 和 Bi-LSTMS 与 VGG16 和 Xception 模型一起进行了测试。通过 Xception 和 Fight-CNN 测试的注意层增强了网络。对于每个 CNN，考虑了两个分类器，即具有注意力的 Bi-LSTM 或没有注意力的 Bi-LSTM。在 CNN 和 LSTM 实验中，为了观察帧数对精度的影响，帧数在 5 到 10 之间变化。

历元数为 20，批处理大小为 10 用于 Fight-CNN 实验，100 用于 VGG16 和 Xception 实验。数据集被分成 80%用于培训， 20%用于测试。实验结果在表 2-3-4 中以测试精度表示。由于 Fight-CNN 是用 Hockey 数据集的场景进行训练的，所以 Fight-CNN 在 Peliculas 上的测试结果不如表 2 所示。 Peliculas 数据集的战斗场景样本数量很少，所以精度是受到虚假预测的高度影响。因此精度标准差高于其他。在训练结束时，Bi-LSTM 方法的损失值大多低于常规的 LSTM 模型。正如表 2 所观察到的，与其他方法相比，添加注意层显著提高了精度。曲棍球数据集实验表明，Bi-LSTM 比常规 LSTM 具有优势，如表 3 所示。当与 Xception 和 Fight-CNN 实验进行比较时，注意层再次显示了它的效果。结果表明，Fight-CNN 与 Bi-LSTM 和注意力的结果是有希望的。由于我们在 Fight CNN 中使用的 Xception 网络结构参数很少，因此与常规的 Xception 网络相比，它的精度较低。另一方面，Fight-CNN 包含的参数数量较少，提取特征的速度比常规 Xception 网络快。如表 4 所示，监视摄像机数据集的结果不如其他数据集的结果好。由于该数据集中样本的多样性很高，模型不能很容易地推广到该数据集。

结果表明，与 Xception 模型相比，Fight-CNN 在数据上提供了更好的特征提取。由于 CNN 熟悉它所训练的战斗场景，它可以更容易地提取重要的特征。注意层以其聚焦能力再次提高了常规 Xception 和 Fight-CNN 的准确性。在大多数情况下，每个视频参数的帧数与精度没有直接的相关性。然而，与每个视频使用 10 帧相比，每个视频使用 5 帧对特征提取步骤的计算负载较少。

V.讨论

该方法得益于 CNN 对帧的特征提取。双向 LSTM 的双向学习和注意层，也可以确定对序列的每个部分给予的注意量，以提高准确性。因此，所提出的方法已经超过了最先进的性能。此外，还使用 Fight-CNN 测试了一个新的模型，这是 Xceptio模型的一个修改版本。比 LSTM 在动作识别方面表现出比常规 LSTM 更好的性能，这也在[8]、[9]的相关研究中得到了说明。此外，[3]、[4]、 [6]的研究表明，注意层提高了序列学习的性能。本研究验证了这一发现，并表明使用 Bi-LSTM 和注意是一种很有前途的方

法来分类战斗场景。实验结果还表明，数据集包含的多样性越多，对战斗场景的分类就越具有挑战性。由于收集的监视战斗数据集包含不同类型的战斗事件，来自不同的地点，在不同的条件下，它对最先进的行动识别系统提出了重大挑战。

六。结论

本研究的主要目的是以快速、准确的方式从监控摄像机中检测战斗场景。该方法采用注意层和 Bi-LSTM 网络相结合的方法，提高了检测精度，提供了良好的检测效果。此外，利用预先训练的 Fight-CNN 进行特征提取，证明了其在监视摄像机

数据集实验中的有效性。该研究的另一个重要贡献是收集的监视摄像机战斗数据集，这对自动战斗检测提出了进一步的挑战。该监视摄像机数据集可以通过添加来自街道或地下车站的安全摄像机步行的新样本来扩展。