Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization

哈尔滨张谦蛋

已于 2024-08-30 15:31:39 修改

阅读量98

点赞数 3

分类专栏： WTAL TAL 文章标签： WTAL MIL

于 2024-08-30 15:31:19 首次发布

本文链接：https://blog.csdn.net/m0_46521375/article/details/141719460

版权

WTAL 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

TAL

3 篇文章 0 订阅

订阅专栏

Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization

冯千涵† 林桐* 北京大学信息科学技术学院，GAI国家重点实验室

李文硕 陈星昊* 华为诺亚方舟实验室

ABSTRACT

最新的方法引入了伪标签学习框架，以弥合基于分类的训练与定位推理目标之间的差距
在伪标签学习框架中，使用基于分类的模型生成的伪标签，供基于回归的学生模型学习。伪标签的质量影响着检测结果，但并未得到充分研究。
在本文中，我们提出了一套简单有效的伪标签质量提升机制，并构建了FuSTAL框架。
FuSTAL框架在三个阶段增强伪标签的质量

在提案生成阶段进行夸视频对比学习。
在提案选择阶段基于先验知识对伪标签进行过滤
在训练阶段采用EMA(指数平均移动)进行蒸馏学习

通过以上设计在框架的不同阶段提升了为标签的质量。有助于提取生成信息更丰富、错误更少、平滑性更好的动作提案。

1 INTRODUCTION

WTAL：

基于分类的单阶段策略采用注意力机制：35、46基于多实例学习MIL:15\28\29\33\42\55

基于分类的单阶段策略最终的预测通过对小片段进行一系列的后处理操作（包括阈值处理、合并和非极大值抑制），这种人工的后处理设计与直接定位动作的最终目标相差甚远。

两阶段方案[34、60]通过生成伪标签来训练基于回归的学生模型。

先前的工作大多只关注提案生成（人工设计后处理阶段），忽略了在其他阶段生成更优秀提案的潜力，即使在伪标签生成阶段，生成的动作提案也因仅限于单个视频内部的信息而不够丰富。

为了充分利用WSTAL伪标签学习框架中的伪标签潜力，我们将框架视为一个多阶段过程，包括：

提案生成阶段用于生成动作提案
伪标签选择阶段用于过滤噪声假阳性动作提案
训练阶段（Training-Stage）用于基于回归的学生模型训练和提升。

我们认为，仅在提案生成阶段提升动作提案是不够的。因此，我们提出在所有三个阶段增强伪标签或动作提案。

1、在提案生成阶段，我们引入跨视频信息，帮助发现动作的更多本质特征。

①单视频挖掘信息[33\34\55\60]、然而，若仅在单个视频片段中进行对比，一些混淆片段可能被错误分类，因为在一个视频内场景和特征相对相似。

②在其他视频的帮助下，区分目标动作与背景信息更加容易。

-------> RSKP[10]使用视频内部表示更新原始特征，仅用于优化分类。

-------> DCC[19]利用低效的对比学习，但忽视了边界信息，而边界信息正是学生模型所需的关键信息。

我们引入了一种简单而高效的方法，利用跨视频相似性来帮助生成质量更好的动作片段提案。具体来说，我们选择具有相同视频级别标签的视频对，并基于MIL训练挖掘简单和困难的动作与背景嵌入，然后应用对比损失，让一段视频中的困难嵌入接近另一段视频中的简单片段特征。(视频内部对比损失和视频间对比损失)

2、在提案生成阶段之后，先前的框架会直接开始训练基于回归的学生模型，即使有些考虑到提案质量，也仅使用简单的置信度阈值处理。但在生成的提案中仍然存在许多并不与融合真实动作重叠的假阳性，出现这种假阳性的原因是许多背景往往与动作同时出现，从而导致类似的高激活。如果没有合适的提案选择方法，有害的提案就会进入伪标签训练。为了过滤伪标签。

我们在训练阶段之前添加了一个专门设计的选择阶段，用于伪标签过滤。我们分析了这些假阳性的分布，并引入了一种简单而高效的基于先验的机制，以尽可能多地过滤掉假阳性。

做出这种选择机制的原理：

我们发现生成的背景周围的预测往往比那些高度重叠真实动作的预测更稀疏。基于这一先验，我们计算了视频内所有提案的IoU矩阵，并过滤掉所有提出IoU分数较低的提案。只有IoU分数高于阈值的提案才有资格成为学生模型学习的伪标签。

Figure 4 Caption: 提议围绕真实动作片段的密度通常高于背景片段周围的密度。

如图4所示、假阳性的提案与其他提案有很少或没有交集，而正样本与GT或者其他正样本之间有着很高比例的重叠，正成为我们筛选提案的一大准则。

3、在训练阶段中，基于回归的学生模型以监督方式进行训练，先前的工作在训练结束时即停止。在最初的伪标签训练达到上限且无法进一步改进时，我们转向基于回归的学生模型的指数移动平均（EMA），以生成更精确的伪标签。通过更平滑和更准确的新动作提案，进行快速的最终伪标签训练。

具体来说，我们回顾之前的学生模型训练，并构建了一个与D架构相同的辅助网络Dˆ。我们通过D的指数移动平均（EMA）更新其参数：

ParamDˆ=α×ParamDˆ+(1−α)×ParamD,

其中𝑃𝑎𝑟𝑎𝑚Dˆ和𝑃𝑎𝑟𝑎𝑚D分别是两个模型的参数。EMA模型在更新参数时不反馈给D。

一旦基于P𝑓𝑖𝑙𝑡𝑒𝑟的训练停止，我们在训练阶段的后期开始一个辅助子阶段。在这个后期子阶段，我们将Dˆ转变为教师模型，生成新的伪标签供学生模型D学习。更具体地说，首先将输入视频传入Dˆ以生成动作提议。然后，信心低于𝜂'的提议将被放弃，剩下的提议将使用与方程9相同的损失函数供D学习。

Dˆ生成的伪标签更加平滑，并且更重要的是，能够从宏观角度保持对完整动作的更好信息。在新伪标签的帮助下，学生模型获得了最终的提升。至此，我们完成了追求更好伪标签的整体FuSTAL框架。

在推理阶段，提议生成器和提议精炼器将不再使用，仅保留已训练好的基于回归的学生模型D。输入的视频特征将直接输入基于回归的模型，并直接输出预测的回归和分类结果。

我们的工作贡献如下：

我们提供了关于在WSTAL伪标签学习框架中提案增强的潜在阶段的新见解，并在每个阶段提出了新策略，以生成更优的动作提案。
我们提出了一种简单而高效的跨视频对比学习机制，以生成更丰富的初始伪标签。为了挖掘学生模型的潜力，我们在后期训练中应用了EMA蒸馏，以生成更平滑的伪标签。
我们设计了一种基于先验的提案过滤机制，过滤掉假阳性，填补了WSTAL框架中缺乏可靠伪标签选择方法的空白。
我们的方法在THUMOS'14数据集上超越了所有先前的WSTAL方法，并成为第一个达到50%平均mAP里程碑的方法。

全监督时间动作定位（TAL）

现有的大多数方法可以大致分为两类：两阶段方法和单阶段方法

两阶段方法[31, 37, 39, 44, 45, 58, 61]包括提案生成阶段和分类阶段。这类方法通过提高提案的质量[37, 52, 61]或分类器的鲁棒性[44, 58]来增强其性能。

单阶段方法则同时生成和分类候选片段。一些单阶段方法通过卷积网络（CNN）[20, 47, 48]构建层次结构，而另一些则通过引入Transformer架构[4, 36, 43, 56]取得了显著的性能提升。

弱监督时间动作定位（WTAL）

WTAL只需要视频级类别标签，在仅有视频级标签的情况下：

1、[42]首次引入了多实例学习（Multiple Instance Learning, MIL）框架，通过对最高激活的片段进行分类来生成提案。从那时起，提出了许多基于MIL的方法[15, 28, 29, 33]来提高基于分类的提案的质量。

2、W-TALC[30]通过将同类别特征拉得更近、不同类别特征推得更远，来学习紧凑的类内特征表示。

3、CoLA[55]在同一视频中挖掘出易于识别和难以识别的片段，并对这些特征应用对比学习以优化表示。

4、DCC[19]将跨视频对比学习应用于WSTAL，但它主要关注类别之间的对比，忽视了边界信息，并且需要大量计算资源来执行算法。

5、PivoTAL[34]构建了一个伪标签学习框架，引入了一系列先验知识，如背景场景与动作之间的关联，以生成更好的伪动作片段，然后直接用它们训练基于回归的头部模型。尽管PivoTAL取得了领先的结果，但框架中的伪标签使用较为平淡，对更优质伪标签的研究不足，为进一步改进留出了空间。

伪标签学习。伪标签学习策略广泛应用于弱监督问题中。

当样本未被标注时，通过置信度阈值生成伪标签是一种常见的方法[14, 38, 54]。

在WSTAL环境下，基于伪标签训练的工作主要集中在伪标签生成上。这些方法中的大多数[5, 19, 27, 51, 53]关注片段特征，并在片段级生成伪标签。

Zhou等[60]尝试在伪标签中包含动作边界信息，并设计了自我修正机制，以减少置信度偏差，从而在动作级别生成质量更高的伪标签。

PivoTAL[34]则利用先验知识生成信息量丰富的提案，供回归模型学习。如何在视频研究后选择伪标签，以及训练过程中的潜在改进仍需进一步探索。

图2：FuSTAL框架概述：（a）生成阶段：对挖掘出的片段应用视频内和跨视频对比损失，以帮助挖掘基本特征，从而生成更具信息性的动作提议。不同颜色和图案的三角形和圆形代表来自不同视频的难度片段和易片段的嵌入。（b）选择阶段：收集初始提议以计算每个提议的IoU得分。仅保留得分高于阈值的提议作为伪标签。（c）训练阶段：使用选定的动作提议以监督方式训练基于回归的学生模型。同时更新EMA模型，当原始提议达到其上限时，切换为新的标签生成器。在推理阶段，仅使用训练好的基于回归的模型。

3 PROPOSED METHOD: FUSTAL

3.1 Preliminaries

在弱监督时间动作定位（WSTAL）中，我们仅能访问一组带有视频级标签的视频集，表示为 V={v(i),y(i)}i=1N，其中 N 是视频的总数，v(i) 和 y(i)分别代表未剪辑的视频和动作类别标签。对于每个视频的动作的精确开始和结束时间点，我们没有任何信息，也不知道视频中存在多少动作。y(i)表示为多热编码的标签，形式为 y(i)∈{0,1}C，其中 C 为动作类别的数量。

在推断时，目标是为视频 v(i) 生成一组动作片段预测 A(i)={sj,ej,cj}j=1M，其中 sj和 ej 分别为动作 ai,j的开始和结束时间，而 cj则是预测的类别。给定一个输入的未剪辑视频 Vn，我们遵循常见的过程[15, 55]将其划分为多个片段，即 Vn={Sn,l}l=1Ln。在训练过程中，我们从变长的片段中采样一个固定数量的 T 个片段 {Sn,l}l=1T。采样完成后，应用预训练的特征提取器（例如 I3D [1]）分别从片段集中提取 RGB 特征 XRn={xRt∈Rd}t=1T和光流特征 XOn={xOt∈Rd}t=1T，其中 d为每个片段的特征维度。然后，将这两种模态提取的特征进行拼接，生成网络的输入特征 Xn∈RT×2d。

3.2 Insight and Overview

在该框架中，使用一个基于分类的动作建议生成器，以及一个直接从伪标签中学习的基于回归的学生模型。不同于专注于微小片段合并的基于分类的方法，基于回归的模型从宏观角度将动作视为一个整体，直接提出回归预测，从而更好地保持对整体动作的理解。

我们认为，框架中伪标签的质量是最重要的关键因素，不仅仅与生成有关，还可以从其他方面得到提升。意识到潜在的伪标签质量提升空间，我们有动力从新的角度看待WSTAL中的伪标签学习框架：不仅仅是两阶段，我们建议将该框架划分为动作建议生成阶段（Generation-Stage）、噪声建议过滤阶段（Selection-Stage）和学生训练及潜在提升阶段（Training-Stage）。

基于这一新见解，我们提出了一种新颖的WSTAL伪标签学习框架，名为FuSTAL。在FuSTAL中，每个阶段都配备了用于提升伪标签质量的特殊机制。首先，伪标签由基于跨视频生成器生成，然后通过基于先验的机制进行过滤。选择出的建议交由学生模型学习。最后，经过训练的学生模型在训练后期阶段通过自我蒸馏获得更平滑的伪标签以进行最终提升。在推理阶段，只使用基于回归的学生模型。

我们将在后续章节中详细介绍在生成阶段、选择阶段和训练阶段中为提升伪标签质量所采用的新方法。

3.3 Cross-Video Based Proposal Generation

由于回归模型无法使用准确的动作注释进行学习，我们需要训练一个基于分类的模型来生成动作建议，也就是所谓的伪标签。我们将这个阶段称为生成阶段（Generation-Stage）。

由于框架中的学生模型基于回归，动作提议的时间边界信息非常重要，因此在生成伪标签时应优先考虑这一点。为了创建更清晰的边界，网络需要对动作的本质特征以及与背景场景的区别有深入的了解。然而，大多数现有的基于多实例学习（MIL）的方法仅限于单个视频，在这种情况下，可以挖掘的信息非常有限。此外，在同一个视频中，背景场景和动作特征相对稳定且相似，这使得辨别最显著的差异变得混乱且具有挑战性，如图3所示。

为了解决这一问题，我们提出利用跨视频信息来帮助挖掘有用的信息，并集中于目标动作的更重要特征，从而生成更准确的提议。在我们的设计中，潜在动作的特征不仅应在同一视频内接近动作特征，还应接近同类别其他视频中的动作特征，背景特征亦如此。我们认为跨视频对比学习是一种合适的策略来实现这一目标。

在此，我们提出了一种高效的跨视频对比学习方法，用于生成动作建议。首先，我们计算了 Actioness Aanessn，它表示每个时间片段包含一般动作的可能性，通过沿类别维度求和T-CAS后再施加Sigmoid函数得到:

Aaness,n=Sigmoid(fsum(An)),Aaness,n∈RT.

动作与背景之间的边界通常容易产生混淆，靠近边界的片段比间隔内部的片段更难区分。为了获得更清晰的边界信息，难片段特征应接近同一场景、动作或背景的易片段特征。我们遵循CoLA [55]的方法，挖掘易片段和难片段以进行对比学习。对于难片段的挖掘，首先对A𝑎𝑛𝑒𝑠𝑠𝑛 进行二值化处理，然后通过两个级联的膨胀或腐蚀操作来扩大或缩小动作区间的时间范围。差异区域定义为目标难动作或背景区域：

其中(.; ∗) − 和(.; ∗) + 分别为带掩码∗的腐蚀和膨胀操作。M和𝑚是两个具有不同尺寸的掩码。

最后，从Rℎ𝑎𝑟𝑑中采样𝑘个难片段Kℎ𝑎𝑟𝑑，构成难动作和背景集𝑆𝐻𝐴𝑛，𝑆𝐻𝐵𝑛 。对于易片段，按照A𝑎𝑛𝑒𝑠𝑠𝑛 降序排列的前𝑘和后𝑘个不属于𝑆𝐻𝐴𝑛 和𝑆𝐻𝐵𝑛 的片段被挖掘出来，构建易动作和背景集𝑆𝐸𝐴𝑛 和𝑆𝐸𝐵𝑛 。接着，应用一个视频内对比损失，使得同一视频中难片段的特征接近易片段的特征:

其中，ℓ (x,x+,x-)是InfoNCE损失是对比学习中常用的损失函数。

除了在单个视频内进行对比学习外，我们还将对比学习扩展到跨视频的场景中。对于视频 p，从同一小批次中选择所有具有相同动作类别标签的视频，形成集合 {q}Q。然后，提出了跨视频损失（Cross-Video Loss），使得视频 p 中的困难片段的特征更接近于视频 q中相同类别的易于识别片段锚点的特征：

同时对于 LCross-Video(q,p) 也是如此。通过引入 LCross-Video(q,p)，网络能够将混淆片段与来自其他视频的清晰片段进行比较，从而有效消除类似背景场景和过拟合动作特征的干扰。

视频 p 的总损失可以表达为：

最后，将沿时间维度的分类结果转化为动作片段建议 P，需要进行一系列的后处理操作，包括二值化和非极大值抑制（Non-Maximum Suppression, NMS）。每个建议的平均置信度得分 Sconf 也会被添加到 P 中，以供后续使用。

3.4 Prior-Based Proposal Filtering

大多数现有研究在完成生成阶段后，会直接开始训练回归学生模型。然而，我们认为此时仍然存在大量实际与任何真实标签几乎没有重叠的假阳性片段。

虽然过滤掉置信度低的提议是一种常见的方法，但在WSTAL中，这还不够。因为高置信度分数往往出现在辨识性片段中，包括辨识性动作以及背景，简单的阈值过滤仍会留下许多假阳性。视频本身知识的缺乏使得选择变得两难。

我们研究了假阳性的误导问题，并在生成阶段后插入了一个新的选择阶段。在这个新的选择阶段中，融入了视频提议分布的先验知识。我们注意到，虽然在提议中动作和背景之间的置信度边界不够清晰，但聚类趋势却相对具有辨识性：真实动作周围的提议往往比背景周围的提议更密集，这意味着假阳性提议与其他提议重叠的几率较低，如图4所示。换句话说，通过选择重叠更多的提议，可以过滤掉更多的假阳性提议。我们进行了实验来验证这一先验知识，如图6所示。

为了利用这一先验知识过滤假阳性提议，我们首先从同一视频中收集所有提议P∈R𝐺，然后计算每两个提议之间的交并比（IoU）值，以构建一个IoU矩阵M∈R𝐺×𝐺。接着，我们将一个提议的所有IoU值相加，形成其IoU得分：

其中M𝑣是矩阵的第𝑣行，1(𝑔 ≠ 𝑣)在𝑔 ≠ 𝑣时为1，否则为0。虽然不同视频中的提议数量有所不同，但每个提议重叠片段的分布相对稳定，因为它与局部特征的关系更为密切，而不是与全局长度有关，这也是方程7中采用求和而非求平均值的原因。

最后，我们结合置信度阈值和IoU得分阈值，过滤掉大多数假阳性提议：

P𝑓𝑖𝑙𝑡𝑒𝑟 = 𝑝𝑣|𝑝𝑣∈P,S𝐼𝑜𝑈𝑣≥ 𝛾, S𝑐𝑜𝑛𝑓𝑣≥ 𝜂 , (8)

其中𝛾和𝜂是两个分数的阈值。

根据图6，真正的阳性提议和假阳性提议在IoU得分上表现出相反的分布趋势。然而，在一些动作难以辨别或更依赖上下文的场景中，这种相反分布的差异可能不够显著。这也是我们在之前的生成阶段引入跨视频对比学习的另一个原因：以增加动作和背景的差异性，从而帮助减少选择阶段中过滤掉的真正阳性提议的数量。此外，即使一些真正的阳性提议在此操作中被过滤掉，它们的信息仍然通过其他重叠但更完整的提议得以保留。

在获得较高比例的真实阳性信息的过滤动作提议后，即可开始训练基于回归的学生模型。

Figure 4 Caption: 提议围绕真实动作片段的密度通常高于背景片段周围的密度。

3.5 Student Model Training and EMA-Distillation for New Proposals

在我们的伪标签学习框架中，我们旨在训练一个基于回归的学生模型D，从而弥合分类与最终目标——定位之间的差距。与基于分类的模型不同，基于回归的模型接收的标签包括动作类别以及开始/结束时间信息。

我们以监督方式使用选定的提议P𝑓𝑖𝑙𝑡𝑒𝑟作为硬标签来训练学生模型D。我们在每个片段的动作分类中引入了焦点损失L𝑓𝑜𝑐𝑎𝑙 [21]。此外，为了直接找到动作边界而无需多步处理，我们在学生模型的回归头中应用了基于DIoU的回归损失L𝐷𝐼𝑜𝑈 [59]。最后，我们采用了多实例学习（MIL）分类损失，以帮助在WSTAL设置下挖掘辨识性信息。基于回归模型D的训练损失可表示为：

LLoc=Lfocal+LDIoU+LMIL.

随着时间推移，来自P𝑓𝑖𝑙𝑡𝑒𝑟的伪标签将逐渐达到其潜在上限，导致学生模型的性能难以再进一步提升。这是因为模型已经从质量有限的基于分类的标签中提取了足够的知识，而模型的预测结果可能会大大超过这些标签。传统的伪标签框架通常会在此时结束训练阶段，但我们决定探索是否可以创建质量更好的新伪标签以替代原有标签。

首先，我们回顾之前的学生模型训练，并构建了一个与D架构相同的辅助网络Dˆ。我们通过D的指数移动平均（EMA）更新其参数：

ParamDˆ=α×ParamDˆ+(1−α)×ParamD,

其中𝑃𝑎𝑟𝑎𝑚Dˆ和𝑃𝑎𝑟𝑎𝑚D分别是两个模型的参数。EMA模型在更新参数时不反馈给D。

Dˆ生成的伪标签更加平滑，并且更重要的是，能够从宏观角度保持对完整动作的更好信息。在新伪标签的帮助下，学生模型获得了最终的提升。至此，我们完成了追求更好伪标签的整体FuSTAL框架。

在推理阶段，提议生成器和提议精炼器将不再使用，仅保留已训练好的基于回归的学生模型D。输入的视频特征将直接输入基于回归的模型，并直接输出预测的回归和分类结果。

哈尔滨张谦蛋

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization

这也是我们在之前的生成阶段引入跨视频对比学习的另一个原因：以增加动作和背景的差异性，从而帮助减少选择阶段中过滤掉的真正阳性提议的数量。在弱监督时间动作定位（WSTAL）中，我们仅能访问一组带有视频级标签的视频集，表示为 V={v(i),y(i)}i=1N，其中 N 是视频的总数，v(i) 和 y(i)分别代表未剪辑的视频和动作类别标签。先前的工作大多只关注提案生成（人工设计后处理阶段），忽略了在其他阶段生成更优秀提案的潜力，即使在伪标签生成阶段，生成的动作提案也因仅限于单个视频内部的信息而不够丰富。
复制链接

扫一扫

专栏目录