[行为识别] Two –Stream CNN for Action Recognition in Videos

最新推荐文章于 2024-09-04 07:16:53 发布

背包_十年

最新推荐文章于 2024-09-04 07:16:53 发布

阅读量5.8k

点赞数

分类专栏： faicutly 计算机视觉文章标签：计算机视觉深度学习行为识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/neu_chenguangq/article/details/79088932

版权

这篇文章发表于2014 NIPS。也是牛津大学产出的。在这篇文章出来之前其实也有人尝试用深度学习来处理行为识别，例如李飞飞团队【Large-scale video classification with】通过叠加视频多帧输入到网络中进行学习，但是不幸的是这种方法比手动提取特征更加糟糕。当这篇文章出来以后才意味着深度学习在行为识别中迈出了重大的一步。

一、前言

这里主要阐述了论文的三个主要贡献点。

首先，论文提出了two-stream结构的CNN，由空间和时间两个维度的网络组成。
其次，作者提出了利用网络训练多帧密度光流，以此作为输入，能在有限训练数据的情况下取得不错的结果。
最后，采用多任务训练的方法将两个行为分类的数据集联合起来，增加训练数据，最终在两个数据集上都取得了更好的效果。（作者提到，联合训练也可以去除过拟合的可能）

二、网络结构

视频天生的可以分为空间和时间两个部分。空间部分，每一帧代表的是表面信息，比如物体、场景等等。而时间部分信息是指帧之间的运动，包括摄像机的运动或者目标物体的运动信息。所以网络相应的由两个深度网络组成，分别处理时间与空间的维度。

每个网络都是由CNN和最后softmax 打分组成。最后的softmax的fusion主要考虑了两种方法：平均，在堆叠的softmax上训练一个SVM。网络结构图如下所示。

三、光流卷积网络

在网络中，时间部分，以连续多帧之间光流场作为输入。因为这种输入能有效的描述视频帧之间的运动&#

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。