【视频动作定位】Weakly-supervised Temporal Action Localization by Uncertainty Modeling

2021-AAAI

摘要

弱监督时间动作定位的目的是学习仅用视频级别标签来检测动作类别的时间间隔。为此,将动作类别的帧与背景帧(即不属于任何动作类的帧)分开是至关重要的。在本文中,我们提出了一个关于背景帧的新视角,其中它们被建模为分布外样本,因为它们的不一致性。然后,可以通过估计每帧偏离分布的概率来检测背景帧,称为不确定性,但如果没有帧级标签,直接学习不确定性是不可行的。为了实现弱监督环境下的不确定性学习,我们利用了多实例学习公式。此外,我们进一步引入背景熵损失,通过鼓励其分布(动作)概率均匀分布在所有动作类上来更好地区分背景帧。实验结果表明,我们的不确定性建模可以有效地减轻背景帧的干扰,并带来较大的性能增益。我们证明,我们的模型在基准测试THUMOS ’ 14和ActivityNet(1.2 & 1.3)上明显优于最先进的方法。我们的代码可在https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling上获得。

引言

时间动作定位(TAL)是一个非常具有挑战性的问题,它在视频理解和分析中起着重要的作用。为了解决这一问题,许多工作以全监督的方式进行,并取得了令人印象深刻的进展(Zeng et al. 2019;Lin et al. 2019, 2020;Xu et al. 2020)。然而,获取精确注释的成本极高,例如,标记每个操作实例的开始和结束时间戳。

为了解决高成本问题和扩大可扩展性,研究人员将注意力转向了具有弱监督的同一任务,即弱监督时间动作定位(WTAL)。在各级弱监管中,由于成本低廉,视频级动作标签被广泛使用(Wang et al. 2017)。在此设置中,如果每个视频包含相应的动作帧,则将其标记为动作类的正视频,否则标记为负视频。注意,一个视频可能有多个动作类作为它的标签。

现有的方法通常将WTAL作为基于帧的分类,并采用注意力机制(Nguyen et al. 2018)或多实例学习(Paul, Roy, and RoyChowdhury 2018)从视频级标签中学习。尽管如此,与完全监督的同行相比,他们的表现仍然很差。根据文献(Xu et al. 2019),性能下降主要来自背景帧的假警报,因为视频级标签没有任何背景线索。为了弥补这一差距,出现了一些尝试以弱监督方式进行显式背景建模的研究。Liu等人(Liu, Jiang, and Wang 2019)合并静态帧合成伪背景视频,但忽略了动态背景帧(图1a)。与此同时,一些工作(Nguyen, Ramanan, and Fowlkes 2019;Lee,呃,and Byun 2020)试图将背景帧分类为一个单独的类。然而,强制所有背景帧属于一个特定的类是不可取的,因为它们不共享任何共同的语义(图1b)。

在这里插入图片描述

图1

在本文中,我们接受了对背景帧不一致性的观察,并建议将其表述为分布外样本(Liang, Li, and Srikant 2018;Dhamija, G¨unther, and Boult 2018)。它们可以通过估计每个样本来自分布外的概率来识别,也称为不确定性(Bendale and Boult 2016;Lakshminarayanan, Pritzel, and Blundell 2017)。为了对不确定性建模,我们建议利用嵌入特征向量的大小。一般来说,动作帧的特征比背景帧的特征具有更大的幅度,如图2a所示。这是因为动作框架需要为真动作类产生较高的logits。虽然特征大小与背景和动作框架的区分具有相关性,但由于动作和背景的分布非常接近,直接用特征大小进行区分是不够的。因此,为了进一步鼓励特征大小的差异,我们建议通过增大动作特征的幅度并将背景特征的幅度减小到接近零来分离这些分布(图2b)。

在这里插入图片描述

图2

为了仅通过视频级监督来学习不确定性,我们利用了多实例学习的公式(Maron和Lozano-P´erez 1998;Zhou 2004),其中模型是用包(即未修剪的视频)而不是实例(即帧)来训练的。具体来说,从每个未修剪的视频中,我们根据特征大小选择top-k和bottom-k帧,并将它们分别视为伪动作帧和背景帧。然后,我们设计了一个不确定性建模损失来分离它们的大小,这样我们的模型就可以在没有帧级标签的情况下间接建模不确定性,并且可以更好地分离动作帧和背景帧。此外,我们引入了背景熵损失来强制伪背景帧在动作类上具有均匀的概率分布。这可以防止他们倾向于特定的动作类别,并通过最大化其动作类别分布的熵来帮助他们拒绝它们。为了验证我们方法的有效性,我们在两个标准基准上进行了实验,THUMOS ’ 14和ActivityNet。通过联合优化提出的损失和一般的动作分类损失,我们的模型成功地区分了动作帧和背景帧。此外,我们的方法在两个基准上都达到了最新的性能。

我们的贡献有三个方面:1)我们提出将背景框架作为分布外样本来制定,克服了由于背景不一致而导致的背景建模困难。2)我们为弱监督动作定位设计了一个新的框架,其中不确定性被建模,并通过多实例学习仅使用视频级标签进行学习。3)我们进一步鼓励动作和背景的分离,该损失函数最大化背景帧中动作概率分布的熵。

相关工作

Fully-supervised action localization

时间动作定位的目标是从长视频中找到动作实例的时间间隔,并对其进行分类。对于该任务,许多方法依赖于每个训练视频的准确时间注释。他们中的大多数使用两阶段方法,即,他们首先生成建议,然后对它们进行分类。为了生成建议,早期的方法采用滑动窗口技术(Shou, Wang, and Chang 2016;Yuan et al. 2016;Shou et al. 2017;Yang et al. 2018;Xiong et al. 2017;Chao et al. 2018),而最近的模型预测动作的开始和结束框架(Lin et al. 2018, 2019, 2020)。同时,也出现了一些利用图结构信息的尝试(Zeng et al. 2019;Xu et al. 2020)。此外,还有每个动作实例的高斯建模(Long et al. 2019)和不需要提案生成步骤的有效方法(Alwassel, Caba Heilbron, and Ghanem 2018)。

Weakly-supervised action localization

近年来,人们对弱监督下的时间动作定位问题进行了许多尝试,主要是视频级标签。(Wang et al. 2017)首先通过软、硬两种方式选择相关细分来解决问题。(Nguyen et al. 2018)提出了稀疏性正则化,而(Singh and Lee 2017)和(Yuan et al. 2019)扩展了小判别部分。(Paul, Roy, and Roy- chowdhury 2018), (Narayan et al. 2019)和(Min and Corso 2020)使用深度度量学习来强制来自相同动作的特征比来自不同类别的特征更接近自己。(Shi et al. 2020)和(Luo et al. 2020)分别使用变分自编码器和期望最大化策略来学习注意力权重。(Zhai et al. 2020)追求不同模式之间的共识。同时,(shouet al. 2018)和(Liu et al. 2019)试图回归动作实例的间隔,而不是执行硬阈值。最近,(Ma et al. 2020)提出利用中间监管层(即单框架监管)。

除了上述方法外,一些工作(Liu, Jiang, andWang 2019;Nguyen, Ramanan, and Fowlkes 2019;Lee,呃,and Byun 2020)试图明确地模拟背景。然而,如前所述,它们有先天的局限性,即背景帧可能是动态的和不一致的。相反,我们认为背景是不分布的,并提出学习不确定性和动作类分数。在第4节中,验证了我们方法的有效性。

方法

在本节中,我们首先为弱监督的时间动作定位建立基线网络(第3.1节)。此后,我们将识别背景帧的问题转换为分布外检测,并通过建模不确定性来解决该问题(第3.2节)。最后,详细阐述了训练模型的目标函数(第3.3节)以及如何执行推理(第3.4节)。我们的方法概述如图3所示。

在这里插入图片描述

图3

1、Main Pipeline

Feature extraction

由于内存限制,我们将每个视频分成多帧片段,即 v n = { s n , l } l = 1 L n , v_{n}=\{s_{n,l}\}_{l=1}^{L_{n}}, vn={sn,l}l=1Ln,,其中 L n L_n Ln表示 v n v_n vn中的片段数。为了处理视频长度的巨大变化,从每个原始视频中采样固定数量的 T T T个片段 { s ~ n , t } t = 1 T \{\tilde{s}_{n,t}\}_{t=1}^{T} {s~n,t}t=1T。从采样的RGB和flow片段中,通过预训练的特征提取器分别提取时空特征 x n , t R G B ∈ R D x_{n,t}^{\mathrm{RGB}}\in\mathbb{R}^{D} xn,tRGBRD x n , t f l o w ∈ R D x_{n,t}^{\mathrm{flow}}\in\mathbb{R}^{D} xn,tflowRD。接下来,我们将RGB和flow特征拼接成完整的特征向量 x n , t ∈ R 2 D x_{n,t}\in\mathbb{R}^{2D} xn,tR2D,然后将它们叠加,构建一个长度为t的特征映射,即 X n = [ x n , 1 , . . . , x n , T ] ∈ R 2 D × T X_{n}=[x_{n,1},...,x_{n,T}]\in\mathbb{R}^{2D\times T} Xn=[xn,1,...,xn,T]R2D×T

Feature embedding

为了将提取的特征嵌入到特定于任务的空间中,我们使用了一个1-D卷积层,后面跟着一个ReLU函数。形式上, F n = g e m b e d ( X n ; ϕ e m b e d ) F_{n}=g_{\mathrm{embed}}(X_{n};\phi_{\mathrm{embed}}) Fn=gembed(Xn;ϕembed),其中 g e m b e d g_{\mathrm{embed}} gembed表示具有激活的卷积算子, ϕ e m b e d \phi_{\mathrm{embed}} ϕembed表示层的可训练参数。具体来说,嵌入特征的维数与输入特征的维数相同,即 F n = [ f n , 1 , . . . , f n , T ] ∈ R 2 D × T F_{n}=[f_{n,1},...,f_{n,T}]\in\mathbb{R}^{2D\times T} Fn=[fn,1,...,fn,T]R2D×T

Segment-level classification

从嵌入的特征中,我们预测了片段级的类分数,这些分数随后用于动作定位。给定特征 F n F_{n} Fn,各个片段类别分数由动作分类器生成,即 A n = g c l s ( F n ; ϕ c l s ) \mathcal{A}_{n}=g_{\mathrm{cls}}(F_{n};\phi_{\mathrm{cls}}) An=gcls(Fn;ϕcls),其中 g c l s g_{cls} gcls表示具有参数 ϕ c l s \phi_{\mathrm{cls}} ϕcls的线性分类器。具体来说, A n ∈ R C × T \mathcal{A}_{n}\in\mathbb{R}^{C\times T} AnRC×T,其中 C C C为动作类别的个数。

Action score aggregation

在之前的工作(Paul, Roy和Roy- chowdhury 2018)之后,我们将每个动作类的所有部分的top k a c t k^{act} kact分数汇总起来,并对它们进行平均,以构建视频级别的原始类分数:

a c ( v n ) = 1 k a c t max ⁡ A ^ n ; c ⊂ A n [ c , : ] ∑ ∀ a ∈ A ^ n ; c a , ( 1 ) a_{c}(v_{n})=\frac{1}{k^{\mathrm{act}}}\max_{\hat{\mathcal{A}}_{n;c}\subset\mathcal{A}_{n}[c,:]}\sum_{\forall a\in\hat{\mathcal{A}}_{n;c}}a,\quad(1) ac(vn)=kact1A^n;cAn[c,:]maxaA^n;ca,(1)

其中, A ^ n ; c \hat{\mathcal{A}}_{n;c} A^n;c是包含第 c c c类的 k a c t k^{act} kact动作分数的子集(即, ∣ A ^ n ; c ∣ = k a c t \left|\hat{\mathcal{A}}_{n;c}\right|=k^{\mathrm{act}} A^n;c =kact),而 k a c t k^{act} kact是控制聚合片段数量的超参数。然后,我们通过对聚合分数应用softmax函数得到每个动作类的视频级动作概率:

p c ( v n ) = exp ⁡ ( a c ( v n ) ) ∑ c ′ = 1 C exp ⁡ ( a c ′ ( v n ) ) , ( 2 ) p_c(v_n)=\frac{\exp(a_c(v_n))}{\sum_{c'=1}^C\exp(a_{c'}(v_n))},\quad(2) pc(vn)=c=1Cexp(ac(vn))exp(ac(vn)),(2)

其中 p c ( v n ) p_{c}(v_{n}) pc(vn)表示 v n v_n vn的第 c c c个动作的softmax分数,由视频级弱标签引导。

2、Uncertainty Modeling

从主pipeline中,我们可以获得每个片段的动作概率,但没有仔细考虑动作定位的基本组成部分,即背景识别。对于背景框架的不约束和不一致,我们将背景视为分布之外(Hendrycks and Gimpel 2017)和WTAL的模型不确定性(成为背景的概率)。

考虑到片段 s ~ n , t \tilde{s}_{n,t} s~n,t属于 c c c动作的概率,可以用链式法则将其分解为分布内动作概率和不确定性两部分。令 d ∈ { 0 , 1 } d\in\{0,1\} d{0,1}表示背景判别变量,即如果片段属于任何动作类,则d = 1,否则d = 0(属于背景)。则, s ~ n , t \tilde{s}_{n,t} s~n,t c c c类的后验概率为:

P ( y n , t = c ∣ s ~ n , t ) = P ( y n , t = c , d = 1 ∣ s ~ n , t ) = P ( y n , t = c ∣ d = 1 , s ~ n , t ) P ( d = 1 ∣ s ~ n , t ) , ( 3 ) \begin{aligned}P(y_{n,t}=c|\tilde{s}_{n,t})&=P(y_{n,t}=c,d=1|\tilde{s}_{n,t})\\&=P(y_{n,t}=c|d=1,\tilde{s}_{n,t})P(d=1|\tilde{s}_{n,t}),\end{aligned}(3) P(yn,t=cs~n,t)=P(yn,t=c,d=1∣s~n,t)=P(yn,t=cd=1,s~n,t)P(d=1∣s~n,t),(3)

其中, y n , t y_{n,t} yn,t为片段的标签,即如果 s ~ n , t \tilde{s}_{n,t} s~n,t属第 c c c个动作类别,则 y n , t = c y_{n,t}=c yn,t=c y n , t = 0 y_{n,t}=0 yn,t=0为背景片段。为了可读性,我们描述了单标签的情况。在不损失一般性的情况下,这可以推广到多标签。

Uncertainty formulation.

在式3中,分布动作分类的概率 P ( y n , t = c ∣ d = 1 , s ~ n , t ) P(y_{n,t}=c|d=1,\tilde{s}_{n,t}) P(yn,t=cd=1,s~n,t)与一般分类任务一样,使用softmax函数进行估计。此外,有必要对一个片段属于任何动作类的概率进行建模,即 P ( d = 1 ∣ s ~ n , t ) P(d=1|\tilde{s}_{n,t}) P(d=1∣s~n,t),以解决背景辨别问题。观察到动作帧的特征通常比背景帧的特征具有更大的幅度(图2),我们通过使用特征向量的幅度来表示不确定性。具体来说,背景特征的幅度较小,接近于0,而动作特征的幅度较大。则第 n n n个视频( s ~ n , t \tilde{s}_{n,t} s~n,t)中第 t t t个片段为动作片段的概率定义为:

P ( d = 1 ∣ s ~ n , t ) = min ⁡ ( m , ∥ f n , t ∥ ) m , ( 4 ) P(d=1|\tilde{s}_{n,t})=\frac{\min(m,\|f_{n,t}\|)}{m},\quad(4) P(d=1∣s~n,t)=mmin(m,fn,t),(4)

其中 f n , t f_{n,t} fn,t是对应 s ~ n , t \tilde{s}_{n,t} s~n,t的特征向量, ∥ ⋅ ∥ \left\|\cdot\right\| 是范数函数(我们在这里使用L-2范数), m m m是预定义的最大特征幅度。由公式可以保证概率落在0 ~ 1之间,即 0 ≤ P ( d = 1 ∣ s ~ n , t ) ≤ 1 0\leq P(d=1|\tilde{s}_{n,t})\leq1 0P(d=1∣s~n,t)1

Uncertainty learning via multiple instance learning

为了仅通过视频级别的标签来学习不确定性,我们借用了多实例学习的概念(Maron和LozanoP ’ erez 1998),其中模型是用包(视频)而不是实例(片段)来训练的。在这种情况下,考虑到每个未修剪的视频都包含动作帧和背景帧,我们选择代表视频的伪动作/背景段。具体来说,将特征大小最高的 k a c t k^{act} kact段作为伪动作段 { s ~ n , i ∣ i ∈ S a c t } \{\tilde{s}_{n,i}|i\in{\mathcal{S}}^{\mathrm{act}}\} {s~n,iiSact},其中 S a c t \mathcal{S}^{\mathrm{act}} Sact表示伪动作索引集。同时,底部的 k b k g k^{\mathrm{bkg}} kbkg段被认为是伪背景段 { s ~ n , j ∣ j ∈ S b k g } \{\tilde{s}_{n,j}|j\in\mathcal{S}^{\mathrm{bkg}}\} {s~n,jjSbkg},其中 S b k g \mathcal{S}^{\mathrm{bkg}} Sbkg为伪背景索引集。 k a c t k^{act} kact k b k g k^{\mathrm{bkg}} kbkg分别表示为动作和背景采样的片段数。然后伪动作/背景片段作为输入未修剪视频的代表,并通过多实例学习用于训练。

3、Training Objectives

我们的模型是联合优化的,有三个损失:1)视频级别分类损失 L c l s \mathcal{L}_{\mathrm{cls}} Lcls,用于对每个输入视频进行动作分类;2)不确定性建模损失 L u m \mathcal{L}_{\mathrm{um}} Lum,用于分离动作和背景特征向量的大小;3)背景熵损失 L b e \mathcal{L}_{\mathrm{be}} Lbe,用于迫使背景片段的动作类具有均匀的概率分布。总体损失函数为:

L t o t a l = L c l s + α L u m + β L b e , ( 5 ) \mathcal{L}_{\mathrm{total}}=\mathcal{L}_{\mathrm{cls}}+\alpha\mathcal{L}_{\mathrm{um}}+\beta\mathcal{L}_{\mathrm{be}},\quad(5) Ltotal=Lcls+αLum+βLbe,(5)

其中α和β是平衡超参数。

Video-level classification loss

对于多标签动作分类,我们使用归一化视频级标签的二元交叉熵损失(Wang et al. 2017),方法如下:

L c l s = 1 N ∑ n = 1 N ∑ c = 1 C − y n ; c log ⁡ p c ( v n ) , ( 6 ) \mathcal{L}_{\mathrm{cls}}=\frac{1}{N}\sum_{n=1}^{N}\sum_{c=1}^{C}-y_{n;c}\log p_{c}(v_{n}),\quad(6) Lcls=N1n=1Nc=1Cyn;clogpc(vn),(6)

其中 p c ( v n ) p_{c}(v_{n}) pc(vn)表示第 n n n个视频的第c类的视频级softmax分数(式2), y n ; c y_{n;c} yn;c表示第 n n n个视频的第 c c c类的归一化视频级标签。

Uncertainty modeling loss.

为了学习不确定性,我们训练模型对伪动作片段产生较大的特征幅度,而对伪背景段产生较小的特征幅度,如图3 (a)所示。不确定性建模损失形式为:

L u m = 1 N ∑ n = 1 N ( max ⁡ ( 0 , m − ∥ f n a c t ∥ ) + ∥ f n b k g ∥ ) 2 , ( 7 ) \mathcal{L}_{\mathrm{um}}=\frac{1}{N}\sum_{n=1}^{N}(\max(0,m-\left\|f_{n}^{\mathrm{act}}\right\|)+\left\|f_{n}^{\mathrm{bkg}}\right\|)^{2},\quad(7) Lum=N1n=1N(max(0,m fnact )+ fnbkg )2,(7)

其中 f n a c t = 1 k a c t ∑ i ∈ S a c t f n , i f_{n}^{\mathrm{act}}=\frac{1}{k^{\mathrm{act}}}\sum_{i\in\mathcal{S}^{\mathrm{act}}}f_{n,i} fnact=kact1iSactfn,i f n b k g = 1 k b k g ∑ j ∈ S b k g f n , j f_{n}^{\mathrm{bkg}}=\frac{1}{k^{\mathrm{bkg}}}\sum_{j\in\mathcal{S}^{\mathrm{bkg}}}f_{n,j} fnbkg=kbkg1jSbkgfn,j分别是第 n n n个视频的伪动作片段和背景片段的平均特征。 ∥ ⋅ ∥ \left\|\cdot\right\| 为范数函数, m m m为预定义的最大特征幅度,同式4。

Background entropy loss.

尽管不确定性建模损失鼓励背景段对所有动作产生低logits,但由于softmax函数的相关性,某些动作类的softmax分数可能很高。为了防止背景段对任何动作类都有很高的softmax得分,我们定义了一个损失函数,使背景段的动作概率熵最大化,即强制背景段对动作类具有均匀的概率分布,如图3 (b)所示。损失计算如下:

L be = 1 N C ∑ n = 1 N ∑ c = 1 C − log ⁡ ( p c ( s ~ n bkg ) ) , ( 8 ) \mathcal{L}_{\text{be}}=\frac{1}{NC}\sum_{n=1}^{N}\sum_{c=1}^{C}-\log(p_{c}(\tilde{s}_{n}^{\text{bkg}})),\quad(8) Lbe=NC1n=1Nc=1Clog(pc(s~nbkg)),(8)

式中 p c ( s ~ n b k g ) = 1 k b k g ∑ i ∈ S b k g p c ( s ~ n , j ) p_{c}(\tilde{s}_{n}^{\mathrm{bkg}})=\frac{1}{k^{\mathrm{bkg}}}\sum_{i\in\mathcal{S}^{\mathrm{bkg}}}p_{c}(\tilde{s}_{n,j}) pc(s~nbkg)=kbkg1iSbkgpc(s~n,j)为第 c c c类伪背景片段的平均动作概率, p c ( s ~ n , j ) p_{c}(\tilde{s}_{n,j}) pc(s~n,j) s ~ n , j \tilde{s}_{n,j} s~n,j c c c类的softmax得分。

4、Inference

在测试时,对于一个输入视频,我们首先用 θ v i d \theta_{\mathrm{vid}} θvid获得它的视频级softmax分数和阈值,以确定要定位哪些动作类。对于剩余的动作类,我们通过将分段级softmax得分与作为动作段的概率乘以式3来计算分段后验概率。然后,选取后验概率大于 θ s e g \theta_{\mathrm{seg}} θseg的段作为候选段。最后,将连续的候选片段分组为单个候选区域,其分数计算如下(Liu, Jiang, and Wang 2019)。为了丰富提案池,我们对 θ s e g \theta_{\mathrm{seg}} θseg使用多个阈值,并对重叠的候选区域执行非最大抑制(NMS)。

  • 13
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值