Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization论文整理

最新推荐文章于 2024-08-22 07:51:42 发布

爱发呆的WWT

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量871

点赞数 10

分类专栏：时序动作定位文章标签：人工智能大数据论文阅读深度学习论文笔记计算机视觉

本文链接：https://blog.csdn.net/m0_60273616/article/details/139006704

版权

时序动作定位专栏收录该内容

14 篇文章 1 订阅

订阅专栏

Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization（CVPR2023）论文整理

研究团队：中国科学技术大学

一、任务背景

弱监督时序动作定位旨在训练过程中仅使用视频级类别标签（video-level category labels）对未剪辑视频中的动作进行定位和识别。在没有实例级标注（instance-level annotations）的情况下，大多数现有的方法遵循基于片段的多示例学习( Segment-based Multiple Instance Learning )框架，其中片段的预测由视频的标签来监督。
然而，在训练过程中获取片段级别分数的目标与在测试过程中获取提名级别分数的目标并不一致，从而导致次优的结果。
针对这一问题，本文提出了一种新颖的基于候选框的多示例学习( Proposal-based Multiple Instance Learning，P-MIL )框架，在训练和测试阶段直接对候选候选框进行分类。
该框架包括三个关键设计：
- 1 )周边对比特征提取模块feature extraction module，通过考虑周边对比信息来抑制具有判别性的短候选框；
- 2 )候选框完备性评估模块evaluation module，通过完备性伪标签来抑制低质量的候选框；
- 3 )实例级别的Rank Consistency loss，通过利用RGB和FLOW模态的互补性来实现鲁棒的检测。

二、研究思路

大多数现有的WTAL方法遵循分段式多示例学习( Multiple Instance Learning，S-MIL )框架，其中片段的预测由视频的标签来监督。

使用一个类别无关的注意力分支来计算注意力序列，该注意力序列表示每个片段的前景概率。
使用一个分类分支计算类别激活序列( CAS )，表示每个片段的类别概率。
在训练阶段，通过将CAS与注意力序列聚合得到视频级别的分类分数，然后由视频级别的类别标签进行监督。
在测试阶段，通过阈值化注意力序列生成候选提案，并聚合每个提案对应的片段级CAS对每个提案进行评分。

尽管这些方法取得了长足的进步，但S - MIL框架存在两个缺陷。

首先，训练和测试阶段的目标不一致。如图1 ( a )所示，目标是在测试阶段对动作提议进行整体评分，但在训练阶段训练分类器对片段进行评分。不一致的评分方法可能导致次优的结果。
其次，在很多情况下，很难单独对每个片段进行分类。如图1 ( b )所示，通过观看单个跑动片段，很难判断其属于跳高、跳远还是三级跳远。只有通过观看整个动作实例，利用上下文信息，才能进行判断

受上述讨论的启发，本文提出了一个新颖的基于建议的多示例学习( Proposal-based Multiple Instance Learning，P-MIL )框架，该框架采用了一个两阶段的训练管道。

在第一阶段，训练一个S - MIL模型，并通过阈值化注意力序列生成候选候选框。
在第二阶段，候选提案被分类并聚合成视频级别的分类分数**，由视频级别的类别标签进行监督**。由于候选提案在训练和测试阶段都是直接分类的，因此本文提出的方法可以有效地处理S - MIL框架的缺陷。

然而，在P - MIL框架内，有三个问题需要考虑。

首先，该模型倾向于关注具有辨别力的简短提议。由于训练阶段主要以视频级分类为指导，因此分类器倾向于关注最具判别力的提议，以最小化分类损失。为了解决这个问题，作者提出了一个环绕对比特征提取模块。具体来说，扩展候选提案的边界，然后计算提案的外-内对比特征。通过考虑周围的对比信息，可以有效地抑制那些具有辨别力的简短提议。
其次，S - MIL方法生成的候选建议可能是过度完整的，其中包括不相关的背景片段。对此，提出了一个方案完备性评估模块。具体来说，我们将高置信度提案视为伪实例，然后通过计算这些伪实例的交并比( Intersection over Union，IoU )来获得每个提案的完备性伪标签。在完备性伪标签的引导下，可以抑制低质量提议的激活。
第三，由于测试阶段存在非极大值抑制( NMS )过程，属于同一动作实例的提议的相对得分对检测结果有重要影响。为了学习鲁棒的相对得分，利用RGB和FLOW模态的互补性设计了一个实例级别的等级一致性损失。与给定的候选提案重叠的建议被认为是一个簇。通过约束RGB和FLOW模态在簇内的归一化相对得分保持一致，可以在NMS过程中通过丢弃相对得分较低的提议来实现可靠的检测。

三、研究内容

本文提出的P - MIL框架包含三个步骤，包括候选提案生成、提案特征提取和分类
在这里插入图片描述

1.候选提名生成

S-MIL模型的训练：常规WTAL的基于segment的双分支模型，生成不同阈值下的候选动作提名。
P-MIL模型的构建：
- 利用训练好的S - MIL模型，对注意力序列A施加多个阈值 $θ_{act}$ ，生成候选动作提名 $P_{act} = { ( si , ei) } ^{M_1}_{i = 1}$
- 应用了额外的阈值 $θ_{bkg}$ 来生成背景提名 $P_{bkg} = { ( si , ei) } ^{M2}_{i = 1}$ ,其中注意力序列A低于θ bkg。
因此，最终的候选训练提名被制定为
- 其中M = M1 + M2表示候选提案的总数。需要注意的是，只用行动提案 $P_{act}$ 进行推理。

2.提案特征提取与分类

给定候选提案P，以往的S - MIL方法使用CAS计算每个提名的置信度得分( e.g.外部-内部评分)。然而，这些间接评分方法会导致次优的结果。为了解决这个问题，本文提出直接对候选提名进行分类，并将其聚合成视频级别的分类分数，由视频级别的类别标签进行监督。

周围对比度特征提取
- 问题：对于给定的候选提案P，首先提取对应的提案特征 $X_P$ 。由于训练阶段主要以视频级分类为指导，因此分类器倾向于关注具有判别性的短提案，以最小化分类损失。
- 具体做法：给定一个候选提议Pi = ( si , ei)，首先在左边和右边以其长度α扩展边界，得到三个区域：左边、内边和右边。(left, inner, and right)
  - 对于每个区域，使用RoIAlign，然后在片段特征 $X_S上$ 进行最大池化，以提取相关的D维特征向量，分别用Xl，Xn和Xr表示。
  - 获取建议特征的一种直观方式是将三个特征向量直接级联，并馈入全连接层。然而，受AutoLoc的启发，本文采取了一种更有效的方法，计算提议的外部内部对比特征，然后是一个全连接层，写为：
  - 其中Cat表示级联操作。通过考虑周围的对比信息，这些具有判别性的短建议可以被有效地抑制。
分类头
- 类似于S - MIL框架的流水线，给定候选框特征 $X_P$ ，一个类别无关的注意力分支被用来预测注意力权重A，表示每个候选框的前景概率。
- 同时，一个分类分支被用来预测候选框的基本分类分数 $S_{base}∈R^{M × ( C + 1 )}$ 。通过将Sbase与A相乘，我们得到了背景抑制分类分数 $S_{supp}∈R^{M × ( C + 1 )}$ 。最后，将top - k池化后的softmax分别应用于 $S_{base}$ 和 $S_{supp}$ ，得到预测的视频级分类分数,并由视频级类别标签进行监督。

3.提案细化

提名完备性评价
- 问题：S - MIL方法生成的候选提案可能是过完备的，其中包含不相关的背景片段
- 做法：使用注意力权重选择高置信度的提案作为伪实例，然后通过计算这些伪实例的交并比( Intersection over Union，IoU )获得每个提案的完备性伪标签
- 具体：首先将阈值γ · max ( A ) 应用于提案的注意力权重A，以选择一组高置信度的提案Q。
  - 然后，按照非极大值抑制( NMS )过程，选择注意力权重最高的提名作为伪实例，从Q中移除与其重叠的提议，重复该过程，直到Q为空
  - 之后，得到了一组伪实例 $}^N_{i=1}$ .通过计算候选提名P和伪实例G之间的IoU，可以得到一个M × N维的IoU矩阵。
  - 通过对N维取极大值，为每个候选提名分配IoU最大的伪实例，进而得到候选提名的完备伪标签q∈RM。
  - 在q的指导下，引入完备性分支，与注意力分支和分类分支并行预测完备性得分( q∈RM )，有助于抑制低质量提案的激活。
实例-级 Rank Consistency.
- 问题：由于测试阶段的NMS过程，属于同一动作实例的候选提名的相对得分对检测结果有显著影响。
- 做法：为了学习稳健的相对得分，本文利用RGB和FLOW模态的互补性设计了视频尺度等级一致性( Rank Consistency，IRC )损失。
- 具体来说：首先对注意力序列A施加一个阈值均值( A )来消除低置信度的提议，剩余的提议记为R。
  - 对于R中的每个提议r，那些与之重叠的候选提议被认为是一个簇Ω r，其中| Ωr | = Nr。该聚类对应的分类得分Sbase从RGB和FLOW模态中索引，分别为 $p^{RGB}_{r,c}$ 和 $p^{FLOW}_{r,c}$ ，其中c表示gt类别之一。
  - 然后将簇内的归一化相对分数表示为
  - 使用库尔贝克-莱布勒( KL )散度来约束RGB和FLOW模态之间的一致性，定义为：
  - 在IRC损失的情况下，可以通过在NMS过程中丢弃相对得分较低的提案来实现可靠的检测。

4.网络训练和推理

网络训练
- 在训练阶段，以视频级类别标签y为指导，设计分类损失 $L_{cls}$
- 此外，在PCE模块中，完备性损失被定义为完备性伪标签q和预测的完备性分数( q )之间的均方误差( MSE )为 $L_{comp}$
总体而言，模型的训练目标是

式中：λ comp和λ IRC为平衡超参数。

推理
- 在测试阶段，首先将阈值θ cls应用于视频级别的分类得分ysupp，并忽略θ cls以下的类别。对于剩下的每个类别c，对第i个候选提案的打分为
- 最后，采用类软NMS去除重复提案。

5.讨论

针对测试阶段的定位目标与训练阶段的分类目标不一致的问题，AutoLoc和CleanNet分别提出了外部-内部-对比损失和时间对比损失的监督，直接预测动作实例的时间边界。
与这些方法不同，本文专注于S - MIL框架中关于训练和测试阶段之间如何评分的另一个不一致性。候选提名需要在测试阶段进行打分，而S - MIL分类器则在训练时对片段进行打分。为了解决这种不一致性，本文提出了一个新颖的基于提案的多示例学习框架，该框架在训练和测试阶段直接对候选提案进行分类。

四、实验

1.数据集和评估指标

遵循常规WTAL评价方法

2.实现细节

超参数设置

3.和SOTA比较

THUMOS14
- 本文方法在mAP @ 0.5和平均mAP @ 0.1：0.7方面分别超过了先前最好的性能1.5 %和1.4 %，并且在融合后进一步将差距扩大到1.7 %和1.9 %。即使与某些强监督方法( e.g. BMN 和GTAD )相比，模型也可以在低IoU阈值下取得可比的结果。

ActivityNet
在这里插入图片描述

具体来说，融合后，在ActivityNet1.2数据集上取得了26.5 %的平均mAP，在ActivityNet1.3数据集上取得了25.5 %的平均mAP。

4.消融实验

在THUMOS14数据集上进行
候选框生成
- 为了使P - MIL模型在训练过程中学习到更好的前景-背景分离，生成额外的背景建议来填充方程( 3 )中的候选建议。为了验证在训练阶段引入背景提议的有效性，保持用于测试的候选提议保持一致，仅由行动提议组成。由表4可知，当仅使用动作提案进行训练时，平均mAP为41.2 %。将背景提议纳入训练阶段后，平均mAP提高了5.3 % ~ 46.5 %，显著证明了本设计的有效性。
提名评分
- 为了评估检测性能的上界，使用具有基本真值的IoU对候选提案进行打分。结果表明，候选提案的定位质量已经足够高，检测性能的瓶颈在于候选提案的评分。
- 为了评估P - MIL方法相比于S - MIL方法的有效性，对同一组候选方案应用不同的打分方法。可以观察到，当使用S - MIL方法对候选建议进行评分时，平均mAP为43.6 %。当使用我们的P - MIL方法对候选提案进行打分时，mAP平均提高了2.9 %。结果表明，我们的P - MIL方法对方案的直接评分优于S - MIL方法对方案的间接评分。值得注意的是，将S - MIL模型的检测结果与我们的P - MIL模型的检测结果进行融合后，平均m AP的性能可以进一步提高到47.0 %，说明两种方法可以相互补充。
提名特征提取
- 从实验结果可以看出，在不扩展候选提案边界的情况下，平均mAP仅为41.0 %。在对候选候选框的左右边界进行扩展后，可以得到三个区域的特征向量。
- 然而，简单地将这三个特征向量组合在一起，平均mAP仅提高了0.9 %。当时在方程( 4 )中计算外部-内部对比特征，性能显著提升5.5 %至46.5 %。这些结果验证了周围对比特征提取( SCFE )模块的有效性。
提名优化
- 表7展示了提名优化的两种设计对检测性能的影响，包括提案完整性评估( PCE )模块和实例级秩一致性( IRC )损失。
- 可以观察到两种设计都能带来性能增益。具体来说，PCE模块和IRC损耗在平均mAP方面分别提升了0.7 %和0.8 %的性能，而当两者共同使用时，性能提升了1.3 %。实验结果证明了两种设计的有效性。
超参数敏感性分析
- P - MIL方法有两个超参数，包括方程( 10 )中损失函数的系数λ comp和λ IRC。为了分析这些超参数的敏感性，评估了不同λ comp和λ IRC组合下mAP @ 0.5的性能变化。如图3所示，模型对这两个超参数不是很敏感，在mAP @ 0.5方面的性能波动小于2 %。为这两个超参数分别设置一个适中的值。具体地，当λ comp = 20，λIRC = 2时，mAP @ 0.5达到了39.8 %。

爱发呆的WWT

关注

10
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization论文整理

研究团队：中国科学技术大学。
复制链接

扫一扫

专栏目录