行为识别
任务
- 预测某个时间间隔上的行为。
- 视频分类:预测整个视频的行为。
- 图像分类器。
难点
- 严重依赖物体和场景。数据集带来的问题:骑马和跑步可以用有没有马来区分;遛狗和化学可以用背景区分。这也就导致了真正对动作去区分这么一个功能没做到。
- 光流的问题:长度和语义。光流的帧数少难以描述长时间的动作。本身意义不明显,论文On the Integration of Optical Flow and Action Recognition提出了一个观点光流可能只是掩盖了外观信息。
- CNN擅长捕获物体和场景信息,所以会在训练过程中让动作识别靠物体和场景识别出来。
- 密集快速的运动。
- 空间语义信息细微差别。
- 复杂的时域动态线索。
- 基本的推理能力。
相关数据集
可以分成RGB数据集(早期)和深度骨架序列数据集(来自于微软Kinect等一些深度传感器的应用)。
数据集 | 数据模态 | 采样数量 | 类别 |
---|---|---|---|
KTH | RGB | 2391 | 6 |
HMDB51 | RGB | 6766 | 51 |
UCF50 | RGB | 6618 | 50 |
UCF101 | RGB | 13320 | 101 |
MSR-Action3D | Depth | 567 | 20 |
Kinetics | RGB + Depth | 300000 | 400 |
NTU-RGB+D | RGB + Depth | 56880 | 60 |
NTU-RGB+D 120 | RGB + Depth | 114480 | 120 |
RGB数据集上各个深度学习模型
双流网络
可以使用多任务学习——两个数据集来防止过拟合。
举例:Spatial-Temporal Channel Correlation Networks for Action Classification, 2018