「57万片段+10万动作+21万标签」谷歌发布人类动作识别数据集AVA

Google发布了一个名为AVA的大规模人类动作识别数据集,包含57,000个视频片段,每个片段3秒,共有96,000个标记动作和21万个动作标签。这个数据集用于推动人类行为识别技术的发展,特别强调了以人为本的标注、原子视觉动作和现实视频资料等特点。与其他动作数据集相比,AVA允许在同一场景中为不同动作的多人分配标签,具有广泛的应用前景。" 80952849,7394192,豆瓣电影Top250爬取及CSV存储修复,"['爬虫', 'Python']
摘要由CSDN通过智能技术生成

今天,Google发布了一个新的人类动作识别数据集—AVA。


AVA由超过57,000个视频片段组成,标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段:统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型(如步行,踢或拥抱)手动标记进行分类。



五月份,Google在arXiv上公布的一篇论文中,首先介绍了AVA的创建工作,并于7月份更新。该论文中的初步实验表明,Google的数据集对于现有的分类技术来说是非常困难的 - 下面显示了较旧的JHMDB数据集的性能,与新的AVA数据集的性能之间的对比。


尽管过去几年在图像分类和查找对象方面取得了惊人的突破,但识别人类动作仍然是一个巨大的挑战。这是因为行为本质上不如视频中的对象明确定义,使得难以构建精细标记的动作视频数据集。


而许多基准数据集,如UCF101,ActivityNet和DeepMind的动力学采用图像分类的标签方案,为数据集中的每个视频或视频剪辑分配一个标签,不存在包含可以执行不同动作的多个人的复杂场景的数据集。


为了进一步研究人类动作识别,Google发布了AVA,由“原子视觉动作”创建,这是一个新的数据集,为扩展视频序列中的每个人提供了多个动作标签。AVA由来自YouTube的公开可用视频的URL组成,用空间时间本地化的80个原子动作(例如“walk”,“kick(object)”,“hands hands”)进行注释,从而导致576000的视频片段,96000标记的人类执行动作,以及总共210000的动作标签。


与其它动作数据集相比,AVA具有以下主要特点:


以人为本的标注。每个动

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值