人体行为识别在科技、生活中有着广泛的应用,如视频监控、人机交互、虚拟现实和视频检索等,因此智能的人体识别技术具有很高的研究价值和应用前景,特别是现今视频数据呈指数增长。相对于传统的人工特征方法,CNN特征在对原始数据的特征表达方面有着绝对的优势,已经逐渐取代了以HOG和SIFT等人工特征成为主流的特征提取方法。VLAD(Vector of Aggragate Locally Descriptor)是一种能将尺寸不同的视频特征数据表示成尺寸相同的特征向量,通过VLAD特征表示可以使视频特征数据满足一般分类器的输入要求并得到分类结果。
下面介绍几个常用的数据集:
1.1 KTH
介绍:视频数据集包括六种动作(走、慢跑、快跑、拳击、挥手和鼓掌),所有动作由25个人分别演示,并且融合了四种场景进行演示,一共有![25 \times 6 \times 4 = 600](https://i-blog.csdnimg.cn/blog_migrate/9e04fd46884589a83f99ed4dbc8cf1cd.png)
1.2 Weizmaan
介绍:一共有90个视频文件,由9个人展示,每个人展示十种动作。1.3 HOHA
介绍:从电影中采集的真实的人类活动。1.4 Keck Gesture
介绍:包含14中不同手势(军用信号),使用彩色相机拍摄,分辨率为![640 \times 480](https://i-blog.csdnimg.cn/blog_migrate/5c1e9b4e7699d6c13686e89a57eb027c.png)
![3 \times 3 \times 14 = 126](https://i-blog.csdnimg.cn/blog_migrate/1e8d397cca3a109cc733e064f3b4ebf5.png)
![4 \times 3 \times 14 = 168](https://i-blog.csdnimg.cn/blog_migrate/da2c357ac02b7499e8851a00dab5bef6.png)
1.5 MSR action
数据集包含16个视频序列,并且一共有63个动作,每一个视频序列包含复合动作,一些序列不同人的不同动作,同时有室内和室外场景,所有的视频都是在杂乱并且移动的背景中。视频分辨率为,帧率为15fps,视频序列的长度在32~76秒之间
1.6 YouTube Action
介绍:包含11种动作类,对于每一类动作,视频分为25组, 每一组有4个动作(分在同一组的视频有着一些共同的特征)1.7 UT-Interaction
介绍:提供了一个人-人交互的数据集。包括6类动作,一共有20个视频序列(时长约1分钟),分辨率为![720 \times 480](https://i-blog.csdnimg.cn/blog_migrate/42bc0b817ebc1dfc822c91ec973a1804.png)
1.8 UCF50
介绍:YouTube Action的拓展。1.9 UCF101
介绍:UCF50的拓展。
王冬雪提出了一种CNN特征提取结合VLAD特征表示的人体行为识别方法,并在Youtobe数据库上进行验证,并取得了较高的识别准确率,证明了CNN结合VLAD是一个十分有效的人体行为识别方法。详见:
中国科技论文在线
http://www.paper.edu.cn/releasepaper/content/201803-35