「57万片段+10万动作+21万标签」谷歌发布人类动作识别数据集AVA

最新推荐文章于 2024-03-15 16:56:04 发布

机械鸡_

最新推荐文章于 2024-03-15 16:56:04 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/gh13uy2ql0N5/article/details/78302372

版权

Google发布了一个名为AVA的大规模人类动作识别数据集，包含57,000个视频片段，每个片段3秒，共有96,000个标记动作和21万个动作标签。这个数据集用于推动人类行为识别技术的发展，特别强调了以人为本的标注、原子视觉动作和现实视频资料等特点。与其他动作数据集相比，AVA允许在同一场景中为不同动作的多人分配标签，具有广泛的应用前景。" 80952849,7394192,豆瓣电影Top250爬取及CSV存储修复,"['爬虫', 'Python']

摘要由CSDN通过智能技术生成

今天，Google发布了一个新的人类动作识别数据集—AVA。

AVA由超过57,000个视频片段组成，标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段：统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型（如步行，踢或拥抱）手动标记进行分类。

五月份，Google在arXiv上公布的一篇论文中，首先介绍了AVA的创建工作，并于7月份更新。该论文中的初步实验表明，Google的数据集对于现有的分类技术来说是非常困难的 - 下面显示了较旧的JHMDB数据集的性能，与新的AVA数据集的性能之间的对比。

尽管过去几年在图像分类和查找对象方面取得了惊人的突破，但识别人类动作仍然是一个巨大的挑战。这是因为行为本质上不如视频中的对象明确定义，使得难以构建精细标记的动作视频数据集。

而许多基准数据集，如UCF101，ActivityNet和DeepMind的动力学采用图像分类的标签方案，为数据集中的每个视频或视频剪辑分配一个标签，不存在包含可以执行不同动作的多个人的复杂场景的数据集。

为了进一步研究人类动作识别，Google发布了AVA，由“原子视觉动作”创建，这是一个新的数据集，为扩展视频序列中的每个人提供了多个动作标签。AVA由来自YouTube的公开可用视频的URL组成，用空间时间本地化的80个原子动作（例如“walk”，“kick（object）”，“hands hands”）进行注释，从而导致576000的视频片段，96000标记的人类执行动作，以及总共210000的动作标签。

与其它动作数据集相比，AVA具有以下主要特点：

以人为本的标注。每个动

最低0.47元/天解锁文章

机械鸡_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
「57万片段+10万动作+21万标签」谷歌发布人类动作识别数据集AVA

今天，Google发布了一个新的人类动作识别数据集—AVA。AVA由超过57,000个视频片段组成，标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段：统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型（如步行，踢或拥抱）手动标记进行分类。五月份，Google在arXiv上公布的一篇论文中
复制链接

扫一扫