from: https://zhuanlan.zhihu.com/p/27657196
1. 写在前面
大概两个月前,接到一个小任务,要做一个深度学习在人体姿态识别领域的一些调研,以前也没做调研相关的事情,连格式怎么写都不知道,前前后后看了接近20篇论文,然后就写下来这篇小总结,感觉都不能算是调研,文章主要列出了一些相关的数据集以及深度学习的方法包括基于无监督学习的行为识别、基于卷积神经网络的行为识别、基于循环神经网络以及一些拓展模型的方法。当然,这里面提到的很多模型都不是最新的技术,还有很多最新的模型和技术都没有包含进来。
因为这篇文章写出来已经很久了,所以很多东西记得都有些模糊,这次只是将原来的md文件拿过来排个版,如果有哪里有什么问题,请指正,谢谢。
2. 本文结构
本文首先提出一共17个人体姿态识别相关的数据集及其链接,然后给出9个深度学习在人体姿态识别领域的应用模型,包括其论文提出的思路、模型结构、实验数据集和使用的加速硬件(如果有的话),本文不提供相关的实现方法。
3. 数据集
3.1 KTH
介绍:视频数据集包括六种动作(走、慢跑、快跑、拳击、挥手和鼓掌),所有动作由25个人分别演示,并且融合了四种场景进行演示,一共有
个AVI视频文件。
3.2 Weizmaan
介绍:一共有90个视频文件,由9个人展示,每个人展示十种动作。
3.3 HOHA
介绍:从电影中采集的真实的人类活动。
3.4 Keck Gesture
介绍:包含14中不同手势(军用信号),使用彩色相机拍摄,分辨率为
,每个手势都有三个人演示,每个视频序列中,一个人重复演示三次同样的手势,训练的一共有
个视频序列。并且拍摄角度固定背景也固定。测试的一共
个视频序列,并且使用运动相机拍摄并且处于杂乱且有移动物体的背景中。视频格式为AVI。
3.5 MSR action
介绍:数据集包含16个视频序列,并且一共有63个动作,每一个视频序列包含复合动作,一些序列不同人的不同动作,同时有室内和室外场景,所有的视频都是在杂乱并且移动的背景中。视频分辨率为
,帧率为15fps,视频序列的长度在32~76秒之间
3.6 YouTube Action
介绍:包含11种动作类,对于每一类动作,视频分为25组, 每一组有4个动作(分在同一组的视频有着一些共同的特征)
3.7 UT-Interaction
介绍:提供了一个人-人交互的数据集。包括6类动作,一共有20个视频序列(时长约1分钟),分辨率为
,帧率30fps。
3.8 TRECVID Data Availability
3.9 UCF50
介绍:YouTube Action的拓展。
3.10 UCF101
介绍:UCF50的拓展。
3.11 UCF sport actions
3.12 VTB
3.13 VOT
3.14 JHMDB
3.15 MPII Cooking Activities
3.16 HMDB51
3.17 Spots-1M
4. 深度学习算法
4.1 基于无监督学习的行为识别
4.1.1 案例1
论文[1] 将独立子空间分析(Independent subspace analysis,ISA)扩展到三维的视频数据上,使用无监督的学习算法对视频块进行建模。这个方法首先在小的输入块上使用ISA算法,然后将学习到的网络和较大块的输入图像