arxiv:https://arxiv.org/pdf/2002.04355.pdf
本文概括:
本文探索了基于 LSTM 的解决方法。 此外,还利用了注意层。 此外,还收集了一个新的数据集,其中包括来自监控摄像机视频的战斗场景,可在 YouTube 上获得。
暴力活动包含广泛的活动,例如破坏、爆炸和战斗。 在这项研究中,我们重点讨论了战斗活动。 战斗事件被定义为两个或两个以上的人,他们的战斗程度必须受到干扰。
在本研究中,为了增强基于 CNN+LSTM 的战斗检测任务方法, 利用战斗场景对改进的 Xception CNN 进行了训练。 因此,预计这个 CNN 更熟悉输入序列,并从它们中提取更相关的特征。 在分类层中,利用双向 LSTM(Bi-LSTM)和自保持层开发了一种新的方法来提高性能。
方法:
特征提取模型
作者对VGG16和Xception进行了测试。 VGG16 以 224×224 像素分辨率图像作为输入。 它在末端有三个完全连接的层。 特征取自第二完全连接层。 另一方面, Xception 接受 299×299 像素分辨率输入。 特征最后一个全局平均池层中提取。
此外,一个额外的 CNN 被训练用于战斗检测,它被命名为 Fight-CNN。 使用 Hockey 数据集中的视频序列的战斗和非战 斗帧进行训练。 经过训练的 CNN 具有 Xception 体系结构。
在发送用于特征提取的视频之前,从视频序列中采样帧。使用均匀采样,从每个视频中选择 5 或 10 帧。 然后,使用三次 插值将这些帧