《Learning Spatiotemporal Features with 3D Convolutional Networks》算法详解

最新推荐文章于 2022-01-05 21:06:28 发布

Michaelliu_dev

最新推荐文章于 2022-01-05 21:06:28 发布

阅读量465

点赞数

分类专栏：机器学习文章标签： C3D 深度学习神经网络动作识别视频内容理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/michaelshare/article/details/119522092

版权

机器学习专栏收录该内容

84 篇文章 12 订阅

订阅专栏

论文: Learning Spatiotemporal Features with 3D Convolutional Networks
官方代码(caffe): http://vlg.cs.dartmouth.edu/c3d/
由Facebook和Dartmouth学院提出
被ICCV2015收录

一、核心创新

网络全部使用3D卷积和3D池化
方便在不同的任务中使用，如动作识别、相同动作判断、动态场景识别等
网络简单且高效

二、 3D卷积及网络的探索

2.1 3D卷积与3D池化

在这里插入图片描述

2.2 卷积核时间维度分析

采用数据集为UCF101
网络输入片段维度为3 x 16 x 112 x 112
构建网络采用5个3D卷积层和5个池化层，两个全连接和一个softmax loss层
五个卷积层通道数依次为64，128，256，256，256，两个全连接输出都为2048
除第一层以外的所有的池化层，核大小为 2 x 2 x 2，第一层核大小为1 x 2 x 2，步长都为1
训练时batch为30，初始化lr为0.003，每4个epoch除以10，共训练16个epoch

在上述参数固定的情况下，来选择卷积核大小，其中卷积核的维度为d * k * k。按照VGG，3 x 3的卷积效果很好，所以这里k取3，只有d是没确定的。卷积核的步长为1。
为了确定d的值，文章设计两种网络：

d为固定值，文章取1，3，5，7
d为变动值，文章取两种，一种为3-3-5-5-7，另一种为7-5-5-3-3

实验结果如下

在这里插入图片描述

实验结论：

使用3D卷积比使用2D卷积效果好
3D卷积中d取值为3的卷积核效果最好

2.3 C3D网络设计

采用8个3D卷积，5个池化，两个全连接和一个softmax输出层
所有的卷积核大小为3 x 3 x 3，步长为1 x 1 x 1
除第一池化操作外其他所有的核大小为2 x 2 x 2，步长为2 x 2 x 2。第一个池化操作核大小为1 x 2 x 2，步长为1 x 2 x 2
两个全连接维度都为4096

在这里插入图片描述

网络学习到的特征
在这里插入图片描述
其他具体的参数和实验结果详情可以看原文和代码。

视频算法QQ交流群：657626967

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。