【程序人生】Learning Spatiotemporal Features with 3D Convolutional Networks 补充(实验数据部分)
文章主要内容
【程序人生】Learning Spatiotemporal Features with 3D Convolutional Networks
Table 2
video是一个待分类视频,每个clip是视频中的某一段。hit@1就是top-1精度,hit@5就是top-5精度。
上表是作者用不同模型对比C3D在Sports-1M数据集上进行视频分类的结果。
这里clip中帧的预处理只用简单的中心剪裁。
DeepVideo和C3D模型使用较短的clip,Convolution pooling使用较长的clip。
DeepVideo每个clip选4个帧,每个视频选20个clip,共80个帧。C3D每个clip选一个帧,每个视频选10个clip,共10个帧。Convolution pooling使用每个clip包括120个帧的长clip。
Clip hit@1是单独一个clip测试的top-1精度。Video hit@1是视频中随机10个clip测试结果平均值的top-1精度。Video hit@5是视频中随机10个clip测试结果平均值的top-5精度。
Table 3
作者在UCF101数据集上评估(注意是评估,C3D的训练并不在UCF101数据集上)C3D在行为识别任务中的表现。使用的是UCF101数据集官方给出的,用于Action recognition任务的第三种数据集分类,即trainlist03.txt(百度网盘提取码:6juk)和testlist03.txt(百度网盘提取码:11s6)。
文章作者设计了三种C3D的训练网络:
- net-1:在I380K数据集上从头训练
- net-2:在Sports-1M数据集上从头训练
- net-3:在I380K数据集上训练,然后模型拿到Sports-1M上fine-tune
C3D(1 net) + linearSVM提取了4096个特征(dimensions)
C3D(3 nets) + linearSVM提取了12288个特征(dimensions)
结语
如果您有修改意见或问题,欢迎留言或者通过邮箱和我联系。
手打很辛苦,如果我的文章对您有帮助,转载请注明出处。