近期论文动态

1.弱监督的两大挑战

1.1 动作完整性

由于缺少帧级标签,若只根据注意力值进行动作定位,没有考虑到相邻帧之间可能存在相关性,可能导致出现信息丢失的问题。例如,对于动作“跳”,包含准备、跳、落地、恢复四个过程,其中准备和恢复过程在动作定位时对于跳的注意力值可能偏低,从而在定位时可能过滤到这两个部分,导致在弱监督动作定位过程中常会出现动作漏检的问题。

1.2 上下文信息混淆

由于缺少帧级标签,弱监督动作定位常会出现动作和背景混淆的问题,将背景误识别为动作,进而影响动作定位的精确性。

在这里插入图片描述

2. 基于注意力机制的弱监督动作定位方法

2.1 从上到下的方法

首先训练一个视频分类器,将原始视频数据送入视频分类器,得到视频的时序动作分类分布图,即 TCAM(Temporal Class Action Map);然后利用每个片段的 TCAM 获取动作提议片段,进而进行动作定位。

2.2 从下到上的方法

先利用原始视频数据生成帧级注意力值;然后训练和优化帧级注意力值。对于某个动作类别,帧级注意力值较高的帧被认为是动作帧,否则是背景帧。根据帧级注意力值得到动作提议片段,以对视频进行动作定位

3.数据集特点

在这里插入图片描述

Context Size:将上下文大小定义为与实例关联的上下文浏览次数,数据集中的上下文大小为0~6。经分析,只有6.9%的实例没有上下文,同时许多实例有较大的时间上下文,例如58.4%的实例有3次以上的上下文浏览。 上下文信息基本在大多视频上都有体现,如何分辨出上下文和动作的边界成为改善acc的重要因素

Context Distance:定义了四种类型的上下文:Inf(表示不存在时间上的上下文);Far;Middle;Near;发现69.9%的视频中的上下文信息都是far类型的。

Agreement:根据时间边界的一致性来判断描述一个实例的困难程度,判断的指标被定位实例的IoU值,得到五组:特弱(0 < IoU <= 0.2),弱(0.2<IoU<=0.4),中(0.4<IoU<=0.6),高(0.6<IoU<=0.8),特高(0.8<IoU<=1.0)。经分析,只有2.1%的实例具有特弱的一致性,另一方面,83.8%的实例至少表现为中等一致性。

Coverage:通过视频的持续时间来规范化实例的长度。将持续时间分为五个:超小的(0,2],小的(0.2,0.4],中等的(0.4,0.6],大的(0.6,0.8],超大的(0.8,1.0]。经分析,超小的和超大的实例构成了数据集的大部分,分别有42.4%和27.4%

Length:我们将长度度量为实例持续时间(以秒为单位)。我们创建了五个不同的长度组:超小(XS:(0,30])、小(S:(30,60])、中(M:(60120])、长(L:(120180])和超长(XL:>180)。我们发现超过一半(54.4%)的实例是小的。我们还观察到,实例数量随着长度的增加而逐渐减少。

Number of Instances:我们为每个实例分配其视频中的实例总数(来自同一类)。我们为这个特性创建了四个类别:Extra-Small(XS:1);小型(S:[2,4]);中等(M:[5,8]);大型(L:>8)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值