行为识别调研
一、介绍、背景
二、难点
1.类内和类间数据的差异。对于很多动作,本身就具有很大的差异性,例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具有很大的相似性
2.场景和视频的采集条件。背景是动态变化的或者光照、摄像头晃动等会影响结果。
三、数据集
1.Weizman-包含10种动作(走路、快跑、向前跳、测试跳、弯腰、挥单手、原地跳、全身跳、单腿跳),每个动作由10个人来掩饰,背景固定并且前景轮廓已经包含在数据库中,视角固定。
2.KTH-包含6种动作(走、跳、跑、击拳、挥手、拍手),由25个人执行,分别在四个场景下,共599段视频,除了镜头的拉近拉远、摄像机的轻微运动外,背景相对静止。
3.UCF Sports-包含10类动作(跳水、打高尔夫、踢腿、举重、骑马、跑步、滑板、摇摆、侧摆、走路),150个视频,从广播体育频道上收集到的,涵盖很广的场景类型和视角区域。
4.UCF50/UCF101-包含50/101类动作,6680段视频,都是网络上的视频,是真实场景下的。
5.Hollywood(2)-包含12类动作,2859个视频,从电影中截取的
6. HMDB-包含51类动作,6849个视频,由布朗大学SERRE实验室发布。
7.IXMAS Action-包含17类动作,是多角度行为数据,由8个视频角度的摄像机同时对一个行为进行拍摄。由英国Kingston大学发布.中科院自动化所发布了类似的数据集,CASIA.
8.UT-Interaction-监控场景下的数据库,识别从简单的单人行为上升到多人的交互行为。
9.MSR Action 3D/MSR Daily Activity 3D-利用Kinect传感器捕获除彩色图像以外的人体深度图像序列,利用Kinect采集的深度数据可获取较为精准的人体关节点骨架序列,这些序列为深入研究人体运动模式提供了很好的研究数据。
10.Northwestern-UCLA Multiview Action 3D-将深度、骨架和多视角数据融合在一起。
11.CUM Motion Capture-利用8个红外摄像头对41个标记点的人体进行重构,更为准确的估计出人体的骨架结构。
12.Activities of Daily Living(ADL)和First Person Social Interaction—用可穿戴设备采集的第一人称视角的行为数据库.
四、方法
1 基于手工设计特征的方法
- 一般的行为识别方法
1)简单行为识别方法
- 时空体模型
- 时序方法
2)复杂的行为识别方法
- 统计模型
- 句法模型
- 多视角行为识别-可以利用多视角下数据的互补性对行为进行识别,也可以通过多视角下行为之间的联系来学习行为特征在多个视角下的转移过程,从而学得更鲁棒的行为表达。
1)通过分析人体行为在不同视角下的互补特征来对行为进行更完整的表达。
2)利用多视角下的行为数据进行跨视角的行为识别,学习视角不变的特征,这样就可以让不同摄像机的角度下可以识别同一个动作。
- 真实场景下的行为识别-真实场景中行为存在大量遮挡、光照变化以及摄像机运动等影响,使得提取真实场景下的前景信息非常困难,于是有人试图从时空立方体的局部出发,获取更多的时空局部特征,局部特征可以通过构建三维时空滤波器的方式快速的提取时空立方体中的兴趣点。基于局部特征的行为识别方法首先构建兴趣点检测子,如Harris3D检测子、Cuboid检测子、Hessian检测子检测感兴趣点,然后构建局部特征描述子&