Weakly-supervised Temporal Action Localization by Uncertainty Modeling 阅读

1.简介

在本文中,对背景帧提出了一种新的观点,背景帧被建模为分布外样本。然后,可以通过估计每个帧来自外分布的概率(称为不确定性)来检测背景帧。
具体而言,从每个未裁剪的视频,选择top-k和bottom-k特征量,并分别考虑它们作为伪动作和背景帧。此后,我们设计了一个不确定性建模损失来分离它们的大小,通过该模型,能够在没有帧级标签的情况下间接建模不确定性,并在动作帧和背景帧之间提供更好的分离。还引入了背景熵损失,迫使伪背景帧在动作类上具有一致的概率分布,防止他们倾向于某个动作类,并通过最大化它们的动作类分布熵来实现这一点。
本文有以下三点贡献:

  1. 将背景帧描述为分布外样本,克服了由于背景不一致而难以建模的困难。
  2. 设计了一个新的弱监督动作定位框架,通过多示例学习,仅使用视频级别的标签对不确定性进行建模和学习。
  3. 用一个损失进一步鼓励在动作和背景之间进行分离,该损失使背景帧的动作概率分布熵最大化。

2.方法

在这里插入图片描述

2.1 主线

此部分介绍了时间动作定位任务,从特征提取到视频动作得分的完整过程,包含四个部分
特征提取: 将每个视频分割为包含多帧的片段,vn ={sn,l}l=1Ln ,n为视频的序号,Ln为每个视频的片段数量,由于每个视频长度都不一致,将Ln统一取T,由每个视频的T个片段进行特征提取,得到xn,t∈ R2D ,Xn = [xn,1, …, xn,T ] ∈ R2D×T
特征嵌入: 对于特征Xn ,进行1D 卷积和Relu,Fn = gembed(Xn; φembed) ,得到Fn = [fn,1, …, fn,T ] ∈ R2D×T
片段级分类: 对于嵌入特征Fn ,得到CAS序列,, An = gcls(Fn; φcls) ,An∈ RC×T
动作得分: 对于An, 由以下公式计算,得到视频级得分
在这里插入图片描述
就是对于每个类别,都取时间轴上最大的kact 个,计算平均值,之后进行softmax,得到最终结果
在这里插入图片描述

2.2 不确定性建模

从主流程中,可以获得每个片段的动作类别概率,但没有考虑背景。由于背景帧的无约束性和不一致性,将背景视为分布外的数据,然后建模不确定性。
考虑段 s ^ \hat{s} s^n,t 属于第c个动作的概率,可以分解为两部分,即分布内动作概率和不确定性。设d∈{0,1}表示背景识别的变量,如果该段属于任何动作类,则d=1,否则d=0(属于背景)。 s ^ \hat{s} s^n,t 的c类的后验概率为:
在这里插入图片描述
s ^ \hat{s} s^n,t 是c动作类的概率可以分解为两个部分,是分布内的动作概率 * 已知是分布内的动作且是c类动作的概率,前半部分就是文中所说的分布内动作概率,后半部分就是不确定性。

不确定性公式
对一个片段属于任何动作类的概率进行建模,即P(d=1| s ^ \hat{s} s^n,t ),以解决背景区分问题。观察到动作帧通常比背景帧具有更大的特征,通过使用特征向量的大小来表示不确定性。具体来说,背景特征的值小,接近于0,而动作特征的值很大。那么第n个视频中的第t段( s ^ \hat{s} s^n,t )是一个动作段的概率定义为:
在这里插入图片描述
fn,t是对应的特征向量,||·||是一个范数函数(这里使用L2范数),m是预定义的最大特征量。

多实例学习
为了只用视频级标签来学习不确定性,借用了多实例学习的概念。考虑到每个未修剪的视频同时包含动作帧和背景帧,选择代表视频的伪动作/背景片段。具体地说,特征大小的前kact个动作段被视为伪动作段{|i∈Sact},其中Sact表示伪动作集合。同时,将后kbkg段看作是伪背景段{|j∈Sbkg},其中Sbkg表示伪背景集合。kact和kbkg分别表示为动作和背景的片段数。

2.3 损失函数设计

本节介绍三种损失,

  1. 视频级分类损失Lcls,用于每个输入视频的动作分类
  2. 不确定性建模损失Lum ,用于分离动作和背景特征向量的大小
  3. 背景熵损失Lb,迫使背景片段对动作类具有统一的概率分布
    在这里插入图片描述

视频级分类损失
在这里插入图片描述
pc(vn)表示第n个视频的第c类的视频级softmax分数,yn;c是第n个视频的第c类的视频级标签。

不确定性建模损失
在这里插入图片描述
在这里插入图片描述
这会使得伪动作片段的嵌入特征逐渐逼近预定义的数值m,使得伪背景片段的嵌入特征趋向于0,使得背景和动作特征大小产生区分。

背景熵损失
在这里插入图片描述
在这里插入图片描述
Pc( s ^ \hat{s} s^n bkg)是第c类伪背景片段的平均动作概率
为了防止背景片段对任何一个动作类具有较高的softmax分数,定义了一个损失函数,使背景片段的动作概率熵最大化,背景片段被鼓励对动作类具有均匀的概率分布。

3.消融实验

3.1 损失函数的影响和分类得分计算方式

在这里插入图片描述

3.2 最大特征值m

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值