SkatingVerse:大规模行为理解综合数据集

大规模多任务行为理解数据集SkatingVerse,该数据集同时包含了人体动作识别、分割、提议以及评估四类经典行为理解任务。为了更好满足实际应用需求,SkatingVerse首次提出了连续动作分割评估任务,即判断给定的一段长视频中什么时候发生了何种动作,以及该动作做得如何。此外论文通过大量的实验测试了景点行为理解算法在这些任务上的性能,并对联合多个任务的效果进行了研究。

1.背景和动机

当前大部分人体行为理解数据集都聚焦于单一的任务,这样存在两个限制。第一,单一的简单任务不能处理现实情况,很多实际问题需要联合不同任务多步完成。例如,对于一段未经人为剪裁的长视频,目前没有一个单独的任务可以同时实现识别并评估其中的所有动作。而直接使用多个不同数据集上训练的模型来实现一个统一的系统难以完成联合优化的效果。第二,一些视频理解模型的性能会因数据集之间的领域差异而存在限制。而多任务数据集通过在不同任务间使用同质的数据,可以消除数据之间的领域差异。因此,构建一个包含多类标签以及统一评估工具的综合多任务数据集是很有必要的,它可以帮助研究处理复杂的现实问题并提升现有视频理解。

除此之外,现有的数据集还存在一些偏置问题,这将导致基于这些数据集训练的模型难以对动作本身进行有效建模。当前的粗粒度数据集通常存在目标及场景偏置问题。目标偏置指的是视频中的物体作为识别该动作的关键信息。如图1第一行所示,通过视频中的苹果、自行车、梯子、钢琴可以直接判断出当前的行为是削苹果、骑自行车、爬梯子以及弹钢琴。场景偏置是指仅通过视频中的背景信息即可识别当前动作,通过图1第二行中各个球场的信息,即可以判断视频中人物正在进行的动作。这两种偏置会导致算法“走捷径”,仅仅关注于空间信息,而忽视了重要的运动信息。图1第三行则展示了空间偏置,它是指视频中的人物一般只出现在某些固定位置,例如跳水运动员一般是按照固定的路线进行跳水,而高尔夫运动员通常会站在视频中央很少移动。空间偏置会导致模型只关注于视频的特定空间位置,从而减弱其空间泛化的能力。

图片

各种数据集偏置类型及花滑数据集特点

2.SkatingVerse介绍

为了解决现有人体行为理解数据集所面临的问题,我们基于花样滑冰动作构建了一个大规模多任务综合数据集SkatingVerse。如图二所示,它同时包含了人体动作识别、分割、提议以及评估四类经典行为理解任务。此外,基于实际应用需求,SkatingVerse首次提出连续动作分割评估任务,即判断给定的一段长视频中什么时候发生了何种动作,以及该动作做得如何。此外SkatingVerse数据集的动作类别具有多层级粒度的特点,因此有助于对花滑动作进行更科学的分析。由于花滑视频中背景统一&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值