视频数据集 | 视频动作识别video recognition常用数据集整理

最新推荐文章于 2025-03-11 12:31:38 发布

genous110

最新推荐文章于 2025-03-11 12:31:38 发布

阅读量7.6k

点赞数 4

分类专栏：数据读取

数据读取专栏收录该内容

10 篇文章

订阅专栏

一写在前面
未经允许，不得转载，谢谢~~~
这篇文章主要整理一下视频动作识别领域常用的数据集~~~
大概但不严格按照时间顺序排列。
二视频分类数据集

HMDB51

来源：HMDB: a large human motion database

类型：Action recognition
年份：2011
论文：paper

数据：51种动作类别，6,766个视频片段；
train_info: {video, class}
其他信息：动作又分为面部动作（smile，laugh，chew，talk）；有其他东西配合的面部动作（smoke，eat，drink）；常见的肢体动作（climb，dive，jump）；有其他东西配合的肢体动作（brush hair，catch，draw sword）；人类交互之间的肢体动作（hug，kiss，shake hands）。

HMDB51之前还有很多视频数据集，但是再早一些的基本都不怎么用到了。
2. UCF101

来源： UCF101

类型：Action recognition,sports
年份：2012
论文: paper

数据：101种动作类别，13,320个视频片段；
train_info ：{ video，class}
其他信息: 有兴趣的话看看这个吧~视频数据集UCF101的处理与加载（未使用深度学习框架）

ASLAN

来源：ASLAN:The Action Similarity Labeling dataset

类型：Action recognition, Action Similarity Labeling
年份：2012
论文：paper

数据：432种动作类别，3,697个视频片段；
train_info ：{The id of the first sample，The id of the second sample，The pair label (0/1)，The action label of the first sample，The action label of the second sample}
其他信息: 从1571个视频url中抽取出这3697个视频片段，所以视频的长短不一，有71个小于大于10s的, 187个小于1s的。主要用于判定相似/不相似;

Sports-1M

来源： Sports-1M

类型：Action recognition,sports
年份：2014
论文: paper

数据：487种动作类别，1,100,000个视频片段；
train_info ：

{
“stitle”: “Improving Sprint Start Technique”,
“label487”: [ 205 ],
“thumbnail”: “https://i1.ytimg.com/vi/Drdm1WsRQwA/hqdefault.jpg”,
“width”: 640,
“duration”: 86,
“height”: 360,
“id”: “Drdm1WsRQwA”,
“source487”: “train”
},

FCVID

来源： FCVID

类型：Action recognition,Human activities, scene and objects
年份：2015
论文: paper

数据：239种动作类别，91,223个视频片段；
train_info ：{ video,class}

ActivityNet

来源 ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding

类型：Action recognition,Human activities
年份：2015
论文：paper

数据：包含activityNet-100和activityNet-200两个版本，具体包含的视频信息点击官网直接进去看就好了；
train_info ：

{
5n7NCViB5TU: {
annotations: [
{
label: “Discus throw”, segment: [24.25018, 38.08036]
},
{
label: “Discus throw”, segment: [97.00073, 106.284]
}
],
duration: 121.44,
resolution: “320x240”,
subset: “training”,
url: “https://www.youtube.com/watch?v=5n7NCViB5TU”
}
}

其他信息: 可以关注一直ActivityNet相关的比赛系列。

Youtube-8M

来源：Youtube-8M

类型：Action recognition
年份：2016
论文: paper

数据：4716 种动作类别，8,000,000个视频片段; 2018年最新在原来的版本上移除了一些低质量的视频后的数据集为3862个动作类别，5,600,000个视频片段。
train_info ：{ video，class1，class2…}
其他信息: Youtube-8M是一个多标签分类的数据集。

Charades

来源：Charades

类型：Action recognition, Human activities
年份：2016
论文：paper

数据：157种动作类别，9,848个视频片段； 27847 Free-text descriptions, action intervals, classes of interacted objects
train_info ：video-level：{video vector}，frame-level{id framenumber vector}
其他信息: 既包含video-level的分类，又包含frame-level的分类（localizaition）。且这里也不是简单的单标签，而是用vector表示了在各个类上的一个概率分布情况。

Kinectics:

来源：Kinetics:including a diverse range of human focused actionss

类型：Action recognition
年份：2017
论文：paper

数据：600种动作类别，500,000个视频片段；
train_info: {video, class}
其他信息: 包括多样多样的人类行为，每个视频在10s左右，用单个class标注；整个数据集又分成Kinetics-600和Kinectics-400两个。

来源：AVA

类型：Action recognition, Atomic visual actions
年份：2017
论文：paper

数据：80个原子视觉动作和时空注释，210,000种动作类别，57,600个视频片段；
train_info ：AVA actions: {video_id, middle_frame_timestamp, person_box, action_id, person_id }
其他信息: 注释的视频都是15分钟长的电影视频，除了AVA actions还有一个AVA Spoken Activity Datasets是基于语音信息的。

VLOG

来源：VLOG: From Lifestyle VLOGs to Everyday Interactions:

类型：Action recognition
年份：2017
论文：paper

数据：114，000个视频片段；
train_info ：数据文件下载不了~~

HACS(包含了原来的 SLAC )

来源：HACS:Human Action Clips and Segments Dataset

类型：Action recognition, Action Temporal Localization
年份：2017
论文：paper

数据： 200种动作类别，520,000个视频片段；
train_info ：HACS CLIPS：{classname,youtube_id,subset,start,end,label} ， HACS SEGMENTS直接看例子吧：

    "--0edUL8zmA": {
        "annotations": [
            {
                "label": "Dodgeball",
                "segment": [ 5.4,11.6 ]
            },
            {
                "label": "Dodgeball",
                "segment": [ 12.6, 88.16]
            }
        ],
        "duration": "92.166667",
        "subset": "training",
        "url": "https://www.youtube.com/watch?v=--0edUL8zmA"
    }

其他信息: HACS CLIPS动作识别数据集包含: 1.55M 2-second clips on 504K videos，动作分段数据集包含: 140K complete segments on 50K videos; HACS SEGMENTS动作分割数据集变成了一个新的时序定位Temporal Localization benchmark。