基于深度学习的动态手势数据集及论文整理_车内手势检测数据集-CSDN博客

本文链接：https://blog.csdn.net/sliv_ery/article/details/120411756

基于深度学习的动态手势数据集及论文整理

前言
数据集
- 动作识别数据集
- 动态手势数据集
论文
- 2021
- 2020
- 2019
- 2018
- 2017
- 2016
- 2015
- 2014
- 2013
结尾

前言

目前研究的课题是基于深度学习的手势识别，读了该领域的一些论文，也了解了一些关于动作识别和手势识别的数据集，现整理下来，希望可以帮助刚开始接触该方向的研究生，尽快了解前人所做的贡献。以下提到的论文不涉及姿态估计等领域，都是基于RGB图像、深度图像等模态进行手势等动作的识别。

数据集

包含了常用的动作识别数据集和手势识别数据集。

动作识别数据集

UCF101
从youtube收集而得，共包含101类动作。其中每类动作由25个人做动作，每人做4-7组，共13320个视频，分辨率为320*240，共6.5G。UCF101在动作的采集上具有非常大的多样性，包括相机运行、外观变化、姿态变化、物体比例变化、背景变化、光纤变化等。101类动作可以分为5类：人和物体交互,只有肢体动作，人与人交互，玩音乐器材，各类运动。
HMDB51
HMDB51包含51类动作，共有6849个视频，每个动作至少包含51个视频，分辨率320*240，来自于YouTube，google视频等，共2G。动作主要包括一般面部动作，面部操作与对象操作，一般的身体动作，与对象交互动作，人体动作。
Sport-1M
sports – 1M的数据集包含了100万个YouTube视频，其中标注了487个类。这些类按照手工管理的分类排列，其中包含动作大体分为水上运动、团队运动、冬季运动、球类、战斗运动、动物运动等。
Kinects
Kinetics数据集包含了400类人体行为，每一类至少有400个视频，这些视频全都来源于YouTube，每个视频时长大约为10s，一共有30多万个视频。视频中的行为可以被分为三类：单一的人体动作、人与人的交互、人与物的交互。这些行为都被分的非常细，有些需要通过时间推理来区分（例如不同类型的游泳），还有一些动作需要通过物体的视觉特征来区分（例如弹奏不同的乐器）。
ActivityNet
Google在2016年出品的数据集，数据的来源主要是Youtube，带有很强的深度学习背景，数据量很大，需要通过官方提供的程序自行下载，官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube，所以这个数据集相对更复杂，更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。
NTU-RGBD
总共大约有56000个视频，60类动作，50类是单人动作，10类是双人交互动作。每个人捕捉了25个关节点。数据集有两种分割方式，cross subject和cross view，这也是目前最大最全的一个数据集。很多动作识别论文都是以这个数据集作为检测标准。包含四种类型的数据：RGB videos、depth map sequences、3D skeletal data、infrared videos。
KTH
经典的动作识别数据集，也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据，其中包含6个动作（散步、慢跑、跑步、拳击、挥手、拍手），每个动作由25个人物在4个不同的场景下完成，因此一共有600个视频序列，每个视频又可以分割成4个子序列。KTH数据集的动作比较规范，同时采用固定镜头，数量对于目前的模型训练来说也比较丰富，所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。

动态手势数据集

ChaLearn Gesture Challenge_1：CGD
数据库的英文名称为ChaLearn Gesture Data，简称CGD，或者CGD2011，是ChaLearn Gesture Challenge挑战赛多用的一个数据库，数据库都是视频格式，分为深度图像视频和彩色图像视频，因为在录制视频的时候是用Kinect录制的。由此可见，这些手势识别既可以能有深度信息又可以利用色彩信息，共有30个左右的手势单词，也就是说有30个基本的手势动作。视频数据分为500个batch，每个batch含有94个视频，视频分为2种，每种各47个。
Chalearn LAP IsoGD
Chalearn LAP IsoGD数据集源自Chalearn手势数据集(CGD)。因为CGD数据集总共有超过54000个手势，这些手势被分成了子任务。为了重用CGD数据集，我们最终获得249个手势标签，并手动标记时间分割，从CGD数据集中获取连续视频中每个手势的开始帧和结束帧。这个数据库包括47933个RGB-D 手势视频(约9G)。每个RGB-D视频只代表一个手势，由21个不同人执行的249种手势。
Chalearn LAP ConGD
该数据集与ChaLearn LAP IsoGD数据集一样，都来源于CGD数据集，与IsoGD不同的是，该数据库包括22535 RGB-D手势视频(约4G)中的47933个RGB-D手势，每个RGB-D视频可能代表一个或多个手势，由21个不同人执行的249种手势。可用于时序分类任务。
Montalbano
ChaLearn Looking At People (LAP) 2014 Challeng包括三个部分:人体姿态估计、人体动作/交互识别和手势识别，其中手势识别挑战的数据集，称为Montalbano数据集。该数据集是多模态的，因为手势是用带有深度传感器的微软Kinect捕获的。每个数据文件包含一个RGB-Depth图像序列和一个由微软Kinect API提供的骨骼姿态流。手势词汇包含20个意大利文化/人类学符号。手势没有分段，这意味着序列通常包含几个手势。
EGO
EGO手势数据集是用于以第一视角采集的手势识别的多模态大规模数据集。该数据集不仅为分割数据中的手势分类提供了测试平台，而且还为连续数据中的手势检测提供了测试平台。数据集共包含83类静态或动态手势。
Cambridge hand gesture database
该数据集提供了9个手势类别的900个RGB图像序列，9类手势涵盖了3种手部形状和3种运动趋势。其中每一类包含5种不同的光照情况和10次的随意运动。数据集的目标任务是同时区分预定义的手部形状和不同的运动。
20BN-jester
20BN-JESTER数据集是大量带有密集标签的视频剪辑的集合，这些视频剪辑显示了人类在笔记本电脑摄像头或网络摄像头前执行预先定义的手势。该数据集由大量的人群工作者创建，它允许训练健壮的机器学习模型来识别人的手势。此视频数据是作为一个大型TGZ存档提供的，分为最大1GB的22个部分，总下载大小为22.8 GB。档案库包含目录，编号从1到148092。每个目录对应一个视频，并包含高度为100px和宽度可变的JPG图像，JPG图像以每秒12帧的速度从原始视频中提取。JPG的文件名始于00001.jpg。JPG的数量随原始视频的长度而变化。其中训练集为118562个视频，验证集为14787个视频，测试集为14743个视频，总共27类标签。
NVIDIA dynamic hand gesture
它应用的场景是车内手势检测，总共25类手势，每一种手势类型都用于人机界面，并由多个传感器和视点记录。在室内的汽车模拟器中，在明亮和昏暗的人工照明下，捕获了连续的数据流，共包含1532个动态手势，共有20名受试者参与了数据收集。
SHREC 2017
数据集包含14个手势序列，以两种方式执行:使用一个手指和整个手。每个手势由28个参与者以两种方式进行1到10次，总共2800个序列。包含深度图像和手部骨架。
DEVISIGN
该数据集是一种汉语手语数据库，涵盖了4414个标准汉语手语词汇，共包含30个个体(13男17女)的331,050个词汇数据。每个词汇数据由RGB、深度和骨架信息组成。整个数据集可以分为三个子集，第一个子集由26个字母和10个数字组成，第二个子集由500个日常使用的词汇表组组成，第三个子集是一个大型词汇集，该数据集包含2000个汉语SL词汇。

论文

在Supervised Sequence Labelling with Recurrent Neural Network论文中，将序列标记类任务划分为三类，分别是序列分类、片段分类、时序分类。对于动态手势识别任务，可以简单划分为离线手势识别和在线手势识别，前者更像是序列分类任务，对于给定的一段视频序列，该序列仅包含一个动作或者手势，然后通过算法得到该序列属于哪一种动作，这在序列标记任务中属于比较容易的，目前大多数视频理解类任务所用的数据都是预分割好的仅包含一种动作的视频片段，用于训练自己的模型。而在线手势识别属于时序分类任务，对于连续的视频流，可能包含多种动作或手势，并且动作或手势发生的时间位置不确定，可以利用的信息仅有过去和现在，这大大增加了识别的难度，目前对于此类任务还没有很好的解决方案。