tensorflow输出网络结构_使用3D卷积神经网络学习时空特征(附TensorFlow代码)

最新推荐文章于 2021-11-23 17:25:49 发布

weixin_39587029

最新推荐文章于 2021-11-23 17:25:49 发布

阅读量651

点赞数

文章标签： tensorflow输出网络结构

文献总结《Learning Spatiotemporal Features with 3D Convolutional Networks》

原文链接在这里 pdf
代码在这里

这是Du Tran于2014年发表于CVPR的一篇关于深度学习用于动作识别的文献，第一次提出了 C3D Model,即三维卷积神经网络。

此文章研究思路为：深度学习的提出使得提取图像特征变得容易了——> 但是传统的深度学习包括卷积神经网络不能用于视频中的特征识别——> 提出了一个能同时识别视频的时空特征的三维卷积网络。

该网络包含8个卷积层，5个池化层，2个全连接层和1个softmax输出层。

sports-1M数据集，每一帧的尺寸被归一化为 128×171，使用了0.5几率随机水平翻转的数据增强的方法。
batchsize设为30，初始学习率为0.003。
分别对训练过程中始终不变的时间维度长度，与变化的时间维度长度分别训练。不变的长度为别为1,3,5,7，变化的时间核长度分为递增3-3-5-5-7与递减7-5-5-3-3

作者不断修改卷积核的时间维度大小，测试结果表明，当时间维度为3时，表现最好。即：3D卷积核大小应该为3×3×3.

在UCF101和Sports-1M数据集上，C3D的准确率均高于其他方法。

使用C3D进行动作识别相似性标定，效果最好。

本文尝试解决了在大范围数据库中学习视频的时间空间特征的问题。通过系统一学习找到了最好的时间核(3,3,3)，并展示了它在视频识别中的优秀表现。同时，C3D在动作特征识别中，具有更强的泛化性和压缩性。

使用TensorFlow复现的代码在此

hx173149/C3D-tensorflowgithub.com

不加载预训练模型，使用OpenCV resize原始图像，保存为float64形式，训练8000轮，BATCH_SIZE=10，训练结果如下图：

最终准确率可达64%

由于并未加载预训练模型，且只训练了8000轮，这个结果已经较为满意了。如果加载预训练模型，即使用sports-1M微调过的模型，最终在UCF101上的准确率可达93%。

关注