主要思路:利用SSD目标检测检测人体,并将人体图抠出来,然后对原始帧和人体crop图像分别训练一个3DCNN,然后把这两个3DCNN作为特征提取器,分别提取原始帧和crop帧的特征,接着将特征进行融合,最后用SVM进行分类。
代码地址:Multi-3DCNN-for-action-recognition
主要流程如下图所示:
使用的是kth数据集,这个程序目前只能用于kth数据集,因为kth数据集每个视频中只有一个人。
训练3DCNN的时候,数据集的划分如下:
每个动作是由25个人完成,与一般论文中对kth的处理一致,前16个人作为训练,后9个人作为测试。
提取特征进行svm分类时,训练集与测试集也是前16个人作为训练,后9个人作为测试。
从每个训练集中的视频随机取出四段连续的16帧视频作为训练样本,从每个测试集中的视频随机取出一段连续的16帧视频帧作为测试样本。
因此总训练样本数为 16x4x4x6 = 1536,测试样本为:9x4x1x6-1=215
具体细节可看代码中