【程序人生】Learning Spatiotemporal Features with 3D Convolutional Networks 补充(实验数据部分)

【程序人生】Learning Spatiotemporal Features with 3D Convolutional Networks 补充(实验数据部分)

文章主要内容

【程序人生】Learning Spatiotemporal Features with 3D Convolutional Networks

Table 2

table2
video是一个待分类视频,每个clip是视频中的某一段。hit@1就是top-1精度,hit@5就是top-5精度。

上表是作者用不同模型对比C3D在Sports-1M数据集上进行视频分类的结果。

这里clip中帧的预处理只用简单的中心剪裁。

DeepVideo和C3D模型使用较短的clip,Convolution pooling使用较长的clip。

DeepVideo每个clip选4个帧,每个视频选20个clip,共80个帧。C3D每个clip选一个帧,每个视频选10个clip,共10个帧。Convolution pooling使用每个clip包括120个帧的长clip。

Clip hit@1是单独一个clip测试的top-1精度。Video hit@1是视频中随机10个clip测试结果平均值的top-1精度。Video hit@5是视频中随机10个clip测试结果平均值的top-5精度。

Table 3

table3
作者在UCF101数据集上评估(注意是评估,C3D的训练并不在UCF101数据集上)C3D在行为识别任务中的表现。使用的是UCF101数据集官方给出的,用于Action recognition任务的第三种数据集分类,即trainlist03.txt(百度网盘提取码:6juk)和testlist03.txt(百度网盘提取码:11s6)。
文章作者设计了三种C3D的训练网络:

  1. net-1:在I380K数据集上从头训练
  2. net-2:在Sports-1M数据集上从头训练
  3. net-3:在I380K数据集上训练,然后模型拿到Sports-1M上fine-tune

C3D(1 net) + linearSVM提取了4096个特征(dimensions)
C3D(3 nets) + linearSVM提取了12288个特征(dimensions)

结语

如果您有修改意见或问题,欢迎留言或者通过邮箱和我联系。
手打很辛苦,如果我的文章对您有帮助,转载请注明出处。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值