谷歌新发布了一个精确标注动作的数据集，堪称ImageNet视频版

最新推荐文章于 2024-08-18 18:16:35 发布

大数据文摘

最新推荐文章于 2024-08-18 18:16:35 发布

阅读量5.8k

点赞数

本文链接：https://blog.csdn.net/dzjx2eotaa24adr/article/details/78307882

版权

谷歌推出了AVA数据集，一个精细标注的视频数据库，用于人类动作理解，旨在促进视频中动作识别的研究。该数据集包含80类原子级视觉动作，对视频中每个人物的多个动作进行标注，覆盖多种复杂场景，弥补了现有数据集的不足。AVA数据集的发布有望推动多人复杂动作识别的发展。

摘要由CSDN通过智能技术生成

作者： Chunhui Gu & David Ross

编译：魏子敏，龙牧雪，谭婧

就在昨天，谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA（A Finely Labeled Video Dataset for Human Action Understanding ），为视频动作识别这一图像识别中的重大课题提供了新的“原材料”。这个崭新的数据集填补了在复杂的场景下，多人执行不同操作的标注空白。

以下为google blog原文，大数据文摘对其进行了编译：

在计算机视觉领域，教会机器在视频中理解人类行为是一个非常基础的研究课题，这一点对于视频搜索和发现，运动分析以及手势交互都至关重要。过去几年，尽管我们在识别图片中的物体这个领域取得了一些令人兴奋的突破，但是，识别人的动作仍然是一个比较大的挑战。

这是由于，视频中的“动作”识别，天然地比物体识别更困难，这就使得建立一个优质的动作标注视频数据集非常不容易。目前确实存在很多重要的动作标注数据集，例如，ucf101，activitynet和DeepMind的Kinetics。尽管这些数据集都采用图像分类标签的标注结构，给每个视频或视频剪辑的动作进行了一定的标注。但是，复杂的场景下，标注了多人执行不同操作的数据集在业内依然空白。

为了促进对人类动作识别的进一步研究，我们发布了AVA（atomic visual actions）。这个数据集为视频中的每个人都打上了多个动作标签。AVA由YouTube上公开视频的URLs组成，标注了80个独立个体行为（例如“走”、“踢（一个物体）”、“握手”，共有57.6k视频片段，96k标记的人类行动，以及总的210K动作标签。你可以浏览网站（https://research.google.com/ava/）来探索数据集和下载标注，以及阅读我们的arXiv论文，论文描述了数据集的设计与开发（论文地址：https://arxiv.org/abs/1705.08421）。

最低0.47元/天解锁文章

大数据文摘

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫