更新中……
因标题有字数限制,完整题目为:Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision
摘要
意义
因为暴力检测以前的工作是:
- 肤浅的
- 短片段的分类
- 单一场景
- 供应不足的
- 单一模态
- 基于多模态的手工制作特征
Hand-crafted features:数据科学家或领域专家根据对数据的理解和分析,
手动设计并提取出来的特征
。这些特征通常基于人类对于数据的直观理解、先验知识或是对特定任务需求的认知。
解决
1. 发布数据集
XD-Violence,大规模多场景数据集
- 217小时
- 4754个带有音频信号和弱标签的未修剪视频
2. 提出网络
该网络包含三个并行分支:
- 整体分支(Holistic Branch):
- 目的:捕捉视频片段之间的长距离依赖关系
- 方法:使用
相似性先验(similarity prior)
实现,可能基于内容、主题、风格等多种因素的相似来判断,关注的是跨越较长时间段的关系
- 局部分支(Localized Branch):
- 目的:捕捉视频片段之间的局部位置关系
- 方法:使用
邻近性先验(proximity prior)
实现,关注的是相邻视频片段之间时间或空间上的关系
- 分数分支(Score Branch):
- 目的:动态捕捉预测分数的接近度(动态指的什么?接近度指什么?接近度就是分数差的绝对值越小则越接近)
此外,该方法还包括一个近似器(approximator ),来满足在线检测的需要。(近似器是啥?在线检测又是啥?在线检测就类似在实时的监控视频下进行暴力检测)
结论
- 多模态(视听)输入很有用。
- 建模关系很有用。这里的关系是指不同模态之间的关系,还是上面描述的那些
跨越较长时间段的关系
或者相邻视频片段之间时间或空间上的关系
?是后者
代码和数据集下载
关键词
- 暴力检测
- 多模态
- 弱监督
- 关系网络
一、引言
1.1 意义
以前由于应用范围有限和具有挑战性,暴力检测任务研究较少。今年随着视频技术的进步,暴力检测的应用越来越广泛,如:
- 现实场景,如智能监控
- 互联网:如视频内容审查(VCR)
暴力侦查旨在以最小的人力资源成本,及时定位暴力事件的起点和终点
1.2 以前任务的缺点
- 最早的暴力检测任务可以认为是视频分类。训练视频都是经过
精心修剪的,整个视频几乎都是暴力事件
。故应用有限,不能推广到未修剪的视频中。 - 后来虽然开发算法在未修剪的视频上,如MediaEval上的暴力场景检测(VSD - violent scene detection)任务,以及Fighting检测器,但是它们都需要
帧级注释,构建大规模数据集很难
。 - 也有尝试通过多模态信号检测暴力,但有很多缺点,如
依赖小规模数据集、使用主观手工设计的特征以及局限于单一场景
,不能构建一个具有高泛化能力的实用系统
MediaEval:是一个国际性的多媒体内容分析、检索和评估的会议和竞赛系列。
1.3 提出的方法
1.3.1 解释
- 使用
弱监督
只需要视频级的标签,构建大规模的数据集就可行了 - 使用
多模态
线索(结合视觉和音频信息),视觉线索可以精确地区分、定位事件,音频信号可以分离视觉上模糊的事件。比如爆炸时,视频画面可能因剧烈震动而不清晰,但是音频信号可以识别出剧烈的爆炸声。
1.3.2 发布数据集
首先发布了一个由4754个未修剪视频组成的大规模视频暴力数据集,包含音频信号,并且从电影和野外场景中收集。
1.3.3 方法
- 将弱监督暴力检测视为
多实例学习(MIL)
任务 - 为了学习更强大的表征来弥补弱标签
- 提出了一个
整体和局部网络(HL-Net)
,利用片段之间的关系学习强大的表示,从而结合整体和局部的信息来提高检测性能整体分支
捕捉视频中的长距离依赖关系,利用片段之间的相似性先验(比如,相似的片段可能包含相似的信息或事件)来构建整体上的特征表示局部分支
关注视频中的短距离交互,建模一个局部邻域内的片段之间的相互作用,从而捕捉到更精细的时空特征,更好的区分复杂场景中的细微差别
- 引入了
整体和局部线索接近器(holistic and localized cue - HLC)
用于在线暴力检测,因为由于HL-Net需要整个视频来计算片段之间的关系,它可能不适合在线或实时应用- HLC近似器通过学习局部信息来预测暴力行为的可能性
- HLC近似器引入了一个与整体分支和局部分支并行的动态分数分支,通过计算所有特征的加权和来评估视频中某个位置的响应,权重是基于HLC近似器预测的分数动态调整的。不太理解?动态调整,难道是不用训练,在测试的时候也在调整吗?测试的时候肯定是不能调整的,肯定需要训练的
- 提出了一个
1.4 主要贡献
- 发布XD-Violence视听数据集
- 包含4754个未经修剪的视频
- 涵盖了6种常见的暴力类型
- 有217个小时
- 从多个场景中捕获的,例如电影和YouTube
- 引入HL-Net,提出了HLC近似器(附加动态分数分支)
- 大量实验(在XD-Violence和UCF-Crime)证明所提方法有效,也证明了多模态比单模态好
二、相关工作
我们的方法不像以前使用手工制作的特征,而是使用基于CNN的模型来提取高级特征
三、XD-Violence数据集
3.1 选择暴力类别
六种身体暴力类型:虐待、车祸、爆炸、战斗、骚乱和射击。
3.2 收集和注释
3.2.1 视频收集
- 首个同时从电影(91部)和野外场景(YouTube上的野生动物视频)中收集的数据集
- 为了防止模型根据场景背景而非事件来区分暴力,收集了大量与暴力视频背景一致的非暴力视频
图1:每个类别的几个示例。
3.2.2 视频标注
数据集共有4754个视频,包括2405个暴力视频和2349个非暴力视频
- 训练集,包含3954个视频
- 测试集,包含800个视频
- 500个暴力视频和300个非暴力视频
- 标记暴力事件的开始帧和结束帧
- 将相同的视频分配给多个注释者,用他们的平均
训练集和测试集都包含6种暴力
3.3 数据统计
3.3.1 多场景
包括但不限于以下来源:电影、漫画、体育、游戏、音乐、健身、新闻、现场直播、闭路电视摄像机拍摄、手持摄像机拍摄、汽车行车记录仪拍摄等。
3.3.2 多标签
有些暴力事件同时发生,所以为每个暴力视频分配了多个暴力标签(1≤labels≤3),标签顺序是基于暴力事件的重要性
图2:每类标签的数量分布。(a)根据多标签来看,每个标签下的视频数量,当然了,他们之间可能会有些是同一个视频;(b)根据第一个标签来看,每个标签下的视频数量
图3。(a)表示不同视频长度范围的视频在数据集和测试集中的数量分布;(b)表示在测试集中根据暴力片段在整个视频中所占的百分比,展示他们的数量分布。举例来说,暴力片段在整个视频中占比0到10%的有40个
3.4 数据集比较
- 发布的数据集是
最大
的,可以训练易于推广的暴力检测模型 - 包含了
各种各样的场景
,鲁棒性更强 - 包含
视听
信号
表1:不同的暴力数据集的比较。最上部分是小型数据集,中间部分是中型数据集,最下部分是大型数据集。最后一列带
*
的表示音频质量不好(要么静音,要么是背景音乐,无效甚至有害)
四、方法
图4:提出的方法的流程。
4.1 多模态融合
对于训练视频:
- V V V表示一个未修剪的视频
-
y
y
y表示对应的标签,
y
∈
{
0
,
1
}
y \in \{0, 1\}
y∈{0,1},当
y=1
时表示视频V中包含暴力事件 - 使用特征提取器
F
V
F^V
FV和
F
A
F^A
FA,使用
滑动窗口机制
提取视觉特征 X V X^V XV和音频特征 X A X^A XA- X V ∈ R T ′ × d V X^V \in \mathbb R^{T^\prime\times d^V} XV∈RT′×dV
-
X
A
∈
R
T
′
×
d
A
X^A \in \mathbb R^{T^\prime\times d^A}
XA∈RT′×dA
- T ′ T^\prime T′表示特征矩阵的长度。啥意思?是有多少个特征的意思吗?然后每个特征表示一行,共有 T ′ T^\prime T′行。好像不太是这个样子
- d V d^V dV或者 d A d^A dA原文没解释,不知道什么意思
- x i V x_i^V xiV或 x i A x_i^A xiA分别表示第 i i i段的视觉和音频特征。就是第 i i i行吧?
- 使用
串联融合(concatenation fusion)
- 首先将
X
A
X^A
XA和
X
V
X^V
XV
在通道维度上进行拼接
,拼接后的通道数应该是原来的通道数之和 - 然后将拼接后的特征矩阵通过
两个全连接层
- 第一个全连接层有512个结点
- 第二个全连接层有128个结点
- 每层后面紧跟ReLU层(引入非线性因素)和Dropout层(dropout=0.7,随机丢弃部分神经元,防止过拟合)
- X F X^F XF表示最后输出的融合特征
- 首先将
X
A
X^A
XA和
X
V
X^V
XV
4.2 整体和局部网络(HL-Net)
4.2.1 回顾神经网络的长距离依赖
4.2.1.1 图卷积网络(GCNs)
关于GCN可以查看之前的博客:图神经网络(GNN/GCN)
图卷积网络一般都可表述为下式:
-
A
g
g
r
e
g
e
g
a
t
e
Aggregegate
Aggregegate:聚合。编译
全局顶点
的信息(远程依赖信息) -
U
p
d
a
t
e
Update
Update:更新。将每个结点更新为
聚合后得到的新的值+激活函数
- W l a g g W_l^{agg} Wlagg和 W l u p d a t e W_l^{update} Wlupdate:可学习的权重。
简单来说,就是为每个结点聚合与之相关的结点的信息,然后更新原来的值,重复此操作,每个结点就可以得到全局结点的特征学习。
4.2.1.2 非局部网络(non-local networks)
这个我不了解,以后学了再补充
一个实例化的非局部网络操作可以表述如下:
- 中括号内的项可以看作是基于特征相似性的聚合操作
- 乘以 W ψ W_\psi Wψ可以看作更新操作
4.2.2 实现整体分支
整体分支通过计算任意两个位置之间的相互作用直接捕获远程依赖关系,而不考虑它们的位置距离
受GCN启发,通过特征相似先验定义整体关系矩阵
A
H
A^H
AH如下:
- A H ∈ T ′ × T ′ A^H \in T ^ \prime \times T ^ \prime AH∈T′×T′, T ′ T ^ \prime T′是特征矩阵的长度
- A i j H A^H_{ij} AijH度量第i个和第j个特征之间的相似度
- g g g是归一化函数
- 这里的 x i 、 x j x_i、x_j xi、xj是原始特征 X A X^A XA和 X V X^V XV的串联融合 X X X,是为了捕获原始特征
f
f
f是计算一对特征的相似度,如下:
∣ ∣ x i ∣ ∣ 2 \mid \mid x_i \mid \mid _2 ∣∣xi∣∣2是
2-范数
,也叫欧几里德范数,常用计算向量长度,即向量元素绝对值的平方再开方
∣ ∣ x i ∣ ∣ 2 = ∑ 1 n x i 2 \mid \mid x_i \mid \mid _2 = \sqrt{\sum_1^n x_i^2} ∣∣xi∣∣2=1∑nxi2
为了阈值化操作过滤掉弱关系
并加强更相似对的相关性
,
f
f
f将相似度限制在
(
0
,
1
]
(0, 1]
(0,1]范围内,阈值化操作如下:
- τ \tau τ是阈值(0.7)
咋就加强相似对的相关性了?是因为把弱的过滤掉了,剩下的关系(即那些相似性值较高的关系)在数据集中变得更加突出和重要?
归一化函数
g
g
g采用softmax,确保了
A
A
A每一行之和为1
,如下:
我感觉这里类似GCN的取平均操作
为了捕捉远距离依赖,遵循GCN范式将整体层设计为:
这样能够基于全局场而不是其邻居
来计算基于相似性先验定义的位置响应。不是很懂,难道不是因为循环多次之后才是基于全局的吗?
4.2.3 实现局部分支
位置距离对于时间事件的检测有积极的影响
为了保留位置距离,设计了局部关系矩阵
A
L
A^L
AL,如下:
- 仅依赖于第 i i i个和第 j j j个特征的时间位置
- γ \gamma γ和 σ \sigma σ(都设置为1)是超参数,用于控制距离关系影响范围
类似地, X l + 1 L X_{l+1}^L Xl+1L是局部层第 l + 1 l+1 l+1层的输出。是将 X l + 1 L X_{l+1}^L Xl+1L代入到式7中吗?
4.3 在线检测
4.3.1 什么是在线检测?
- 离线检测:检测录像中的暴力事件
- 在线检测:检测实时的监控系统中的暴力事件
4.3.2 问题
因为HL-Net需要整个视频来获取远距离依赖关系,但是实时监控的话就永远得不到整个视频
4.3.3 引入HLC近似器
HLC近似器,仅需要将之前的视频作为输入
,就可以生成由HL-Net指导的精准预测。下面不是说在线检测是的时候HL-Net没用嘛?这里说的是指的离线的情况嘛?也就是说离线的时候HLC和HL-Net是同时工作的?是在训练的时候,HLC会收到HL-Net的指导。离线检测的时候只需要用到HL-Net,在线检测的时候只需要用到HLC近似器。
- 两个堆叠的全连接层+ReLU
- 1D因果卷积层(输出序列的每个点
仅依赖于输入序列中该点及之前的点
,而不会受到未来点的影响)- 在时间维度上的卷积核大小(kernel size)为5
- 步长(stride)为1
- 随时间滑动卷积滤波器(滤波器滑动到输入时间序列的末尾)
1D因果卷积层也充当分类器
- 输出是形状为 T ′ T^\prime T′的暴力激活(violent activation)
- 表示为 C S C^S CS
4.3.4 实现分数分支
计算一个位置的响应,作为所有位置的特征的加权和,其中权重取决于分数的接近程度。没看懂?
分数分支的关系矩阵在每次迭代中都会更新,并且依赖于预测分数而不是先验。为啥整体分支和局部分支不更新?这里整体分支的输入不是变成了之前的视频了吗,那么随着时间的变化整体分支获取到的信息不是越来越多吗?那么它的关系矩阵为啥不变化?还有局部分支每次不都是计算的相邻的时间位置的信息吗?那么随着时间的变化,为啥它的关系矩阵不变?整体分支的输入并不是变成之前的视频了,只是HLC接收之前的分支而已。整体和局部分支好像是会在训练阶段就把权重参数训练好了,之后测试的时候自然不会变化。至于在线检测是怎么动态调整的,目前还不太懂。
分数分支的关系矩阵
A
S
A^S
AS如下:
- s s s是sigmoid
-
ρ
\rho
ρ是用于增强/减弱
- 分数的接近程度>0.5,则增强
- 分数的接近程度<0.5,则减弱
softmax is also used for the normalization.
,哪里用到softmax了???
类似地, X l + 1 S X_{l+1}^S Xl+1S是分数层第 l + 1 l+1 l+1层的输出。是将 X l + 1 S X_{l+1}^S Xl+1S代入到式7中吗?
- X 0 S = X 0 H = X 0 L = X F X_{0}^S=X_0{}^H=X_{0}^L=X^F X0S=X0H=X0L=XF(多模态融合的输出)
4.4 基于多实例学习(MIL)训练
4.4.1 K-max激活
使用一个只有1个节点的FC层将连接表示投影到标签空间(1D空间)得到暴力激活表示如下:
- ∣ ∣ \mid \mid ∣∣ 表示串联操作(concatenation)
- C P ∈ R T ′ C^P \in \mathbb R^{T ^ \prime} CP∈RT′表示暴力激活
应该是将三个分支的输出串联在一起,然后 W W W应该是FC层的权重,这样他们一相乘就最终变成了一个常数
根据MIL原理,将K-max激活( C P C^P CP和 C S C^S CS)在时间维度上取平均值来计算 y P y^P yP和 y S y^S yS,而不是整个使用它。其中 K = ⌊ T ′ q ⌋ + 1 K=\lfloor \frac{T ^ \prime}{q} \rfloor + 1 K=⌊qT′⌋+1(q设置为16)
这里啥意思? C P C^P CP和 C S C^S CS就是K-max激活吗?如果是的话,那K是个什么东西?是指的时间长度控制为K吗?就是让 C P C^P CP和 C S C^S CS除以K就算是取平均了嘛?还是说类似于max(K, x),就是大于K的才算是激活了?那么又是怎么取平均的?还有 y P y^P yP和 y S y^S yS是不是就是K-max激活( C P C^P CP和 C S C^S CS)在时间维度的平均值?K-max激活指的是取实例中前K个分数最高的实例参与比较,并且用的是这K个实例的异常分数的平均值。
正包中对应K-max激活的实例最有可能是正实例(暴力事件),而负包中对应K-max激活的实例是硬实例(最像暴力事件)
4.4.2 损失函数
使用知识蒸馏损失来激励HLC近似器的输出近似于HL-Net的输出,如下:
- N N N为批大小(batch size 设置为128)
应该是考量 C S C^S CS对 C P C^P CP的学习效果怎么样,类似于学生和老师
最终的损失函数如下:
- L B C E L_{BCE} LBCE 为预测标签 y P y^P yP与真实值 y y y之间的二元交叉熵
- L B C E 2 L_{BCE2} LBCE2 为预测标签 y S y^S yS与真实值 y y y之间的二元交叉熵
- λ \lambda λ (设置为5)
4.5 推断
- 可以选择离线或在线方式来高效地检测暴力事件
- Sigmoid函数根据 C P C^P CP和 C S C^S CS可以生成范围在 [ 0 , 1 ] [0, 1] [0,1]内的暴力置信度(分数)这是在啥时候用的?
- 在线检测中,只有HLC近似器起作用,可以移除HL-Net
五、实验
5.1 评价指标
使用帧级的精度-召回率曲线(PRC - precision-recall curve)
和相应的曲线下面积(平均精度,AP)
- 在处理类不平衡数据时,AUC通常显示出乐观的结果?
- PRC和AP关注的是正样本(暴力)
AP值越高,表示模型在保持高召回率的同时,也能保持较高的准确率。
5.2 实现细节
5.2.1 视觉特征
5.2.1.1 特征提取器
利用两个主流网络作为视觉特征提取器,即 F V F^V FV
- 选择
C3D(Convolutional 3D Networks)
- 从其在Sprots-1M数据集上的预训练模型中提取 f c 6 fc6 fc6特征
- 擅长处理时空信息
fc6特征:在VGG16模型中,fc6层位于多个卷积层和池化层之后,是模型中的第一个全连接层,用于将前面层提取的局部特征转换为全局特征,以便进行后续的分类或识别任务。
- 选择
I3D(Inflated 3D Convolutional Networks)
- 从其在Kinetics-400数据集上的预训练模型中提取全局池化特征
- 是一个双流模型,能同时处理RGB图像和光流信息
- RGB流(空间流):负责处理视频帧中的时间信息
- 光流(时间流):通过光流图像来捕捉视频中的运动信息,即通过计算相邻帧之间的像素或特征点运动来捕捉视频中的动态变化。文中采用GPU加速的TV-L1算法来计算光流
5.2.1.2 数据预处理
- 所有视频的帧率统一设置为24FPS
- 设定滑动窗口的长度为16帧
5.2.2 音频特征
采用了VGGish网络作为音频特征提取器,即 F A F^A FA
VGGish网络是在YouTube大数据集上预训练的模型,在音频分类上很优秀
- 视频中的音频被分割成重叠的960毫秒(ms)片段,每个片段都与一个对应的视频片段对齐,确保在时间上是同步的(
重叠分割的方法有助于捕捉音频信号中的连续性和变化,避免信息的丢失
) - 对于每个音频片段,我们计算其log-mel频谱图(log-mel spectrogram),将log-mel频谱图划分为96×64的bin(块/补丁)构成VGGish网络的输入。知识盲区,现在还没学过
默认将提取到的音频特征与I3D网络提取的视觉特征进行融合。啊?前面的C3D提取到的不用了?I3D的光流信息不用了?C3D特征用在了后面与baseline比较,I3D光流好像用在后面的消融实验上了,结果表明将音频特征与RGB特征作为最终的融合特征时效果最佳
5.2.3 HL-Net架构
- 广义来说,HL-Net由三个分支(整体/局部/分数分支)组成
- 每个分支是两层
stack
,每层的输出通道数为32。stack层是什么,是全连接吗? - 每层之间添加了残差连接,缓解梯度消失/爆炸问题,使得GCN在训练阶段可靠收敛
5.2.4 训练细节
- 使用Pytorch
- 超参数设置:
- τ = 0.7 \tau = 0.7 τ=0.7
- A L A^L AL 的 γ = σ = 1 \gamma = \sigma = 1 γ=σ=1
- q = 16 q = 16 q=16
- dropout rate = 0.7
- λ = 5 \lambda = 5 λ=5
- 使用Adam作为优化器
- learning rate = 1 0 − 3 10^{-3} 10−3,在第10个epoch和第30次epoch时都除以10
- epoch = 50
- batch size = 128
5.3 消融实验
Ablation Studies,即消融实验或模型简化测试。
- 指通过去除模型或算法中的某些“特征”或模块,并观察这一变化对模型性能的影响。
- 主要目的是研究模型中各个部分(如模块、层、特征等)对整体性能的影响,从而确定哪些部分是必不可少的,哪些部分可能是冗余的。
- 应遵循控制变量法的原则,即每次只改变一个变量(即去除一个模块或特征),并观察这一变化对模型性能的影响。
5.3.1 模态的影响
在XD-Violence数据集上来验证多模态的优越性
尝试了5中不同的输入(对于单模态,保留了多模态融合模块的两个堆叠FC层):
- 音频模态
- 光流模态
- RGB模态
- 音频和光流模态的融合
- 音频和RGB模态的融合
结果如图5所示:
- 对于单模态,视觉模态明显优于音频模态
- 多模态的融合比单模态更好
- 音频和光流模态的融合比光流模态的AP高3.5%
- 音频和RGB模态的融合比RGB模态的AP高3.2%
结果表明:音频可以为视觉信号提供补充信息
图5:不同模态作为输入时的对比
5.3.2 整体/局部/分数分支的影响
HL-Net中有三个并行的分支,删除一两个分支后对比他们的性能,结果如表2所示:
- 三个分支单独运行时,性能差不多
- 移除任何一个分支都会影响性能
- 三个分支一起时,性能最好
表2:不同分支的性能对比。
5.3.3 在线vs离线检测
如表3所示,离线检测的AP要比在线检测的AP高出5%
- 因为离线检测有HL-Net,可以通过三种不同类型的特征来计算响应
表3:不同方法在XD-Violence数据集上训练的性能的比较。上半部分是不同的方法及他们对应的AP,下半部分中,Ours(C3D)是什么呢?是指使用C3D提取的特征作为输入吗?是指用C3D特征与音频特征融合后的性能。Ours(online)是在线检测的结果,Ours是离线检测的结果。
如图6所示为使用不同训练阶段的模型时的性能变化:
- 初始时,在线检测优于离线检测
- 慢慢地,离线检测优于在线检测
- 原因:HLC近似器轻量,参数少,故易于训练;而HL-Net参数多,训练时间长。所以HLC近似器可以在前期就找到很好的解决方案,而HL-Net要逐渐发力
图6:在不同的epoch时AP的变化曲线。
5.4 与最先进的方法的比较
如表3所示,将提出的方法与几个baseline方法比较:
- 都在XD-Violence数据集上训练
- 我们的方法最好
- C3D和音频融合特征不如I3D(准确来说时RGB特征)与音频特征融合
- 除了C3D以外,所有的方法都是使用
I3D的RGB特征
和VGGish的音频特征
作为输入
5.5 定性结果
图7展示了多个定性实例。
5.5.1 暴力检测
(a)-(c)、(e)-(g)是暴力视频,方法都成功的检测(在异常事件发生时给的异常分数很高)
5.5.2 非暴力评分
(d)、(h)都是非暴力视频,方法给出的异常分数都很低
5.5.3 多模态输入的好处
图7第一行中,相比仅使用RGB输入,多模态输入(RGB+音频)能够更精确地定位暴力事件,减少了误报和漏报。在图(c)中,不仅根据火焰还根据爆炸声检测到了爆炸。
5.5.4 在线 vs 离线检测
图7第二行中,在线检测性能不如离线检测,且误报率较高,这是因为在线检测缺乏足够的上下文信息。
5.5.5 有趣的发现
在图(g)的后半部分,方法出现误报,原因是事故过程虽已经结束,但仍有一辆翻倒的汽车。
图7:提出的方法在测试集上的定性结果。
六、结论
本文研究了弱监督
下基于视听模态
的大规模
暴力检测。
6.1 数据集贡献
发布了一个大规模的暴力数据集
6.2 方法创新
提出了一种可以利用多模态特征
和显示建模视频片段之间的关系
的方法
6.3 实验结果分析
- 发布的XD-Violence是适用的
- 多模态比单模态好
- 利用片段之间的关系是有效的
6.4 未来展望
- 扩展数据集,添加一些音频主导的暴力类,如尖叫
- 将方法扩展到多暴力检测,因为XD-Violence是一个多标签数据集
- 继续探索在线检测