《Learning Spatiotemporal Features with 3D Convolutional Networks》算法详解

最新推荐文章于 2022-04-29 10:32:36 发布

Michaelliu_dev

最新推荐文章于 2022-04-29 10:32:36 发布

阅读量403

点赞数

分类专栏：机器学习文章标签： C3D 深度学习神经网络动作识别视频内容理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/michaelshare/article/details/119522092

版权

机器学习专栏收录该内容

84 篇文章 12 订阅

订阅专栏

论文: Learning Spatiotemporal Features with 3D Convolutional Networks
官方代码(caffe): http://vlg.cs.dartmouth.edu/c3d/
由Facebook和Dartmouth学院提出
被ICCV2015收录

一、核心创新

网络全部使用3D卷积和3D池化
方便在不同的任务中使用，如动作识别、相同动作判断、动态场景识别等
网络简单且高效

二、 3D卷积及网络的探索

2.1 3D卷积与3D池化

在这里插入图片描述

2.2 卷积核时间维度分析

采用数据集为UCF101
网络输入片段维度为3 x 16 x 112 x 112
构建网络采用5个3D卷积层和5个池化层，两个全连接和一个softmax loss层
五个卷积层通道数依次为64，128，256，256，256，两个全连接输出都为2048
除第一层以外的所有的池化层，核大小为 2 x 2 x 2，第一层核大小为1 x 2 x 2，步长都为1
训练时batch为30，初始化lr为0.003，每4个epoch除以10，共训练16个epoch

在上述参数固定的情况下，来选择卷积核大小，其中卷积核的维度为d * k * k。按照VGG，3 x 3的卷积效果很好，所以这里k取3，只有d是没确定的。卷积核的步长为1。
为了确定d的值，文章设计两种网络：

d为固定值，文章取1，3，5，7
d为变动值，文章取两种，一种为3-3-5-5-7，另一种为7-5-5-3-3

实验结果如下

在这里插入图片描述

实验结论：

使用3D卷积比使用2D卷积效果好
3D卷积中d取值为3的卷积核效果最好

2.3 C3D网络设计

采用8个3D卷积，5个池化，两个全连接和一个softmax输出层
所有的卷积核大小为3 x 3 x 3，步长为1 x 1 x 1
除第一池化操作外其他所有的核大小为2 x 2 x 2，步长为2 x 2 x 2。第一个池化操作核大小为1 x 2 x 2，步长为1 x 2 x 2
两个全连接维度都为4096

在这里插入图片描述

网络学习到的特征
在这里插入图片描述
其他具体的参数和实验结果详情可以看原文和代码。

视频算法QQ交流群：657626967

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Learning Spatiotemporal Features with 3D Convolutional Networks》算法详解

论文: Learning Spatiotemporal Features with 3D Convolutional Networks官方代码(caffe): http://vlg.cs.dartmouth.edu/c3d/由Facebook和Dartmouth学院提出被ICCV2015收录一、核心创新网络全部使用3D卷积和3D池化方便在不同的任务中使用，如动作识别、相同动作判断、动态场景识别等网络简单且高效二、 3D卷积及网络的探索2.1 3D卷积与3D池化2.2 卷积核时间.
复制链接

扫一扫

专栏目录

Michaelliu_dev

CSDN认证博客专家 CSDN认证企业博客

码龄10年

127: 原创

1万+: 周排名

6291: 总排名

73万+: 访问

: 等级

5383: 积分

515: 粉丝

757: 获赞

316: 评论

2865: 收藏

私信

关注

热门文章

分类专栏

机器学习 84篇
video action recognition 2篇
视频时序算法 3篇
git 4篇
docker 5篇
pytorch 1篇
tensorflow 1篇
Learn OpenCV 7篇
图形 1篇
ijkplayer 8篇
抓包 2篇
ffmpeg 3篇
音视频处理 3篇
网络 3篇

最新评论

《Mask2Former》算法详解
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
时序动作分割(temporal action segmentation)任务介绍
Ur44: 请问50salads有官方特征吗
《MS-TCN++》算法详解
Michaelliu_dev: 有段时间没研究这个方向了，之前我是没看到的，现在你的在调研一下
《MS-TCN++》算法详解
dl_风禾: 感谢博主，请问目前的动作分割有端到端的模型吗
《MS-TCN++》算法详解
Michaelliu_dev: 不是端到端的，需要先将视频转成特征

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。