python姿态识别_基于深度学习的人体姿态识别算法总结

本文介绍了人体姿态识别相关的17个数据集和9种深度学习模型,包括无监督学习、卷积神经网络(3D-CNN)、循环神经网络(LSTM)的应用。论文中提及的模型利用了ISA、3D-CNN、P-CNN、LSTM等技术,部分模型结合光流数据和骨骼信息进行特征提取。数据集包括KTH、UCF101、HMDB51等,模型应用了GPU进行加速。
摘要由CSDN通过智能技术生成

from: https://zhuanlan.zhihu.com/p/27657196

1. 写在前面

大概两个月前,接到一个小任务,要做一个深度学习在人体姿态识别领域的一些调研,以前也没做调研相关的事情,连格式怎么写都不知道,前前后后看了接近20篇论文,然后就写下来这篇小总结,感觉都不能算是调研,文章主要列出了一些相关的数据集以及深度学习的方法包括基于无监督学习的行为识别、基于卷积神经网络的行为识别、基于循环神经网络以及一些拓展模型的方法。当然,这里面提到的很多模型都不是最新的技术,还有很多最新的模型和技术都没有包含进来。

因为这篇文章写出来已经很久了,所以很多东西记得都有些模糊,这次只是将原来的md文件拿过来排个版,如果有哪里有什么问题,请指正,谢谢。

2. 本文结构

本文首先提出一共17个人体姿态识别相关的数据集及其链接,然后给出9个深度学习在人体姿态识别领域的应用模型,包括其论文提出的思路、模型结构、实验数据集和使用的加速硬件(如果有的话),本文不提供相关的实现方法。

3. 数据集

3.1 KTH

介绍:视频数据集包括六种动作(走、慢跑、快跑、拳击、挥手和鼓掌),所有动作由25个人分别演示,并且融合了四种场景进行演示,一共有

个AVI视频文件。

3.2 Weizmaan

介绍:一共有90个视频文件,由9个人展示,每个人展示十种动作。

3.3 HOHA

介绍:从电影中采集的真实的人类活动。

3.4 Keck Gesture

介绍:包含14中不同手势(军用信号),使用彩色相机拍摄,分辨率为

,每个手势都有三个人演示,每个视频序列中,一个人重复演示三次同样的手势,训练的一共有

个视频序列。并且拍摄角度固定背景也固定。测试的一共

个视频序列,并且使用运动相机拍摄并且处于杂乱且有移动物体的背景中。视频格式为AVI。

3.5 MSR action

介绍:数据集包含16个视频序列,并且一共有63个动作,每一个视频序列包含复合动作,一些序列不同人的不同动作,同时有室内和室外场景,所有的视频都是在杂乱并且移动的背景中。视频分辨率为

,帧率为15fps,视频序列的长度在32~76秒之间

3.6 YouTube Action

介绍:包含11种动作类,对于每一类动作,视频分为25组, 每一组有4个动作(分在同一组的视频有着一些共同的特征)

3.7 UT-Interaction

介绍:提供了一个人-人交互的数据集。包括6类动作,一共有20个视频序列(时长约1分钟),分辨率为

,帧率30fps。

3.8 TRECVID Data Availability

3.9 UCF50

介绍:YouTube Action的拓展。

3.10 UCF101

介绍:UCF50的拓展。

3.11 UCF sport actions

3.12 VTB

3.13 VOT

3.14 JHMDB

3.15 MPII Cooking Activities

3.16 HMDB51

3.17 Spots-1M

4. 深度学习算法

4.1 基于无监督学习的行为识别

4.1.1 案例1

论文[1] 将独立子空间分析(Independent subspace analysis,ISA)扩展到三维的视频数据上,使用无监督的学习算法对视频块进行建模。这个方法首先在小的输入块上使用ISA算法,然后将学习到的网络和较大块的输入图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值