近期论文动态

最新推荐文章于 2023-04-01 00:45:58 发布

qq_39862223

最新推荐文章于 2023-04-01 00:45:58 发布

阅读量360

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_39862223/article/details/121109636

版权

1.弱监督的两大挑战

1.1 动作完整性

由于缺少帧级标签，若只根据注意力值进行动作定位，没有考虑到相邻帧之间可能存在相关性，可能导致出现信息丢失的问题。例如，对于动作“跳”，包含准备、跳、落地、恢复四个过程，其中准备和恢复过程在动作定位时对于跳的注意力值可能偏低，从而在定位时可能过滤到这两个部分，导致在弱监督动作定位过程中常会出现动作漏检的问题。

1.2 上下文信息混淆

由于缺少帧级标签，弱监督动作定位常会出现动作和背景混淆的问题，将背景误识别为动作，进而影响动作定位的精确性。

在这里插入图片描述

2. 基于注意力机制的弱监督动作定位方法

2.1 从上到下的方法

首先训练一个视频分类器，将原始视频数据送入视频分类器，得到视频的时序动作分类分布图，即 TCAM(Temporal Class Action Map)；然后利用每个片段的 TCAM 获取动作提议片段，进而进行动作定位。

2.2 从下到上的方法

先利用原始视频数据生成帧级注意力值；然后训练和优化帧级注意力值。对于某个动作类别，帧级注意力值较高的帧被认为是动作帧，否则是背景帧。根据帧级注意力值得到动作提议片段，以对视频进行动作定位

3.数据集特点

在这里插入图片描述

Context Size：将上下文大小定义为与实例关联的上下文浏览次数，数据集中的上下文大小为0~6。经分析，只有6.9%的实例没有上下文，同时许多实例有较大的时间上下文，例如58.4%的实例有3次以上的上下文浏览。上下文信息基本在大多视频上都有体现，如何分辨出上下文和动作的边界成为改善acc的重要因素

Context Distance：定义了四种类型的上下文：Inf（表示不存在时间上的上下文）；Far；Middle；Near；发现69.9%的视频中的上下文信息都是far类型的。

Agreement：根据时间边界的一致性来判断描述一个实例的困难程度，判断的指标被定位实例的IoU值，得到五组：特弱（0 < IoU <= 0.2），弱（0.2<IoU<=0.4)，中（0.4<IoU<=0.6)，高（0.6<IoU<=0.8），特高（0.8<IoU<=1.0）。经分析，只有2.1%的实例具有特弱的一致性，另一方面，83.8%的实例至少表现为中等一致性。

Coverage：通过视频的持续时间来规范化实例的长度。将持续时间分为五个：超小的(0,2]，小的(0.2,0.4]，中等的(0.4,0.6]，大的(0.6,0.8]，超大的(0.8,1.0]。经分析，超小的和超大的实例构成了数据集的大部分，分别有42.4%和27.4%

Length：我们将长度度量为实例持续时间（以秒为单位）。我们创建了五个不同的长度组：超小（XS:（0,30]）、小（S:（30,60]）、中（M:（60120]）、长（L:（120180]）和超长（XL:>180）。我们发现超过一半（54.4%）的实例是小的。我们还观察到，实例数量随着长度的增加而逐渐减少。

Number of Instances：我们为每个实例分配其视频中的实例总数（来自同一类）。我们为这个特性创建了四个类别：Extra-Small（XS:1）；小型（S:[2,4]）；中等（M:[5,8]）；大型（L:>8）

最低0.47元/天解锁文章

qq_39862223

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
近期论文动态

1.弱监督的两大挑战1.1 动作完整性由于缺少帧级标签，若只根据注意力值进行动作定位，没有考虑到相邻帧之间可能存在相关性，可能导致出现信息丢失的问题。例如，对于动作“跳”，包含准备、跳、落地、恢复四个过程，其中准备和恢复过程在动作定位时对于跳的注意力值可能偏低，从而在定位时可能过滤到这两个部分，导致在弱监督动作定位过程中常会出现动作漏检的问题。1.2 上下文信息混淆由于缺少帧级标签，弱监督动作定位常会出现动作和背景混淆的问题，将背景误识别为动作，进而影响动作定位的精确性。2. 基于注意力机制的弱
复制链接

扫一扫