Two-Stream Convolutional Networks for Action Recognition in Video

最新推荐文章于 2024-09-30 18:16:23 发布

leek1727

最新推荐文章于 2024-09-30 18:16:23 发布

阅读量2k

点赞数

分类专栏：动作识别文章标签： Action Recognition cnn 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lk798362252/article/details/48244693

版权

动作识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Two-Stream Convolutional Networks for Action Recognition in Video

我们提出了一种有区分训练的卷积网络来识别视频中的动作。挑战是从视频帧中获取外观和运动的互补的信息。我们的三个贡献：第一，提出了时间和空间分离的两路卷积网络结构。第二，证明了在多帧密集光流上训练，能够实现很好的性能。第三，多任务学习，应用在两个不同的动作分类数据集上，能够增加训练的数据量，提高性能。

视频能够被分为时间和空间两部分。在空间部分，每一帧的表现形式，携带有场景和目标等信息。在时间部分，在帧与帧之间存在运动信息，包含目标物体和相机的运动信息。每一流用一个深度卷积网络来实现，每一流的softmax分数在最后进行融合。我们考虑了两种融合的方法：求平均值和在一个叠放的L2正则化的softmax得分上训练一个多类的线性SVM。

光流卷积网络：我们模型的输入是几个相邻帧的堆叠的光流位移。这些输入能够描述出视频帧的运动信息。

光流堆叠：一个密集的光流能够被看做是一系列连续帧的位移向量。水平和垂直两部分分开。为了表示一个序列帧的运动信息，我们堆叠L个连续帧的流通道来形成一个总数为2L个输入通道。

轨迹堆叠：另一个可供选择的运动表示，受到基于轨迹描述子的启发，取代光流，在连续几帧相同的位置上采样，根据光流，得到轨迹的运动信息。

双向光流：

减去平均光流：

时间域卷积网络结构与先前的表示的关系：在本文中，运动信息通过用光流位移来准确的表示。

多任务学习：因为视频训练的数据集相对较小，容易产生过拟合，为了避免这种情况的发生，我们合并多个数据集。

实现细节：卷积网络的配置，所有的隐含层用ReLU激活函数；max pooling的大小为3*3，步长为2；时间网络和空间网络位移的不同就是，我们删除了时间网络第二层的正则化来减少内存消耗。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。