【论文阅读笔记】Two-Stream Convolutional Networksfor Action Recognition in Videos

哈士奇的布偶

于 2018-09-26 11:05:58 发布

阅读量390

点赞数

分类专栏：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bpp94_github/article/details/82704192

版权

论文阅读笔记专栏收录该内容

6 篇文章

订阅专栏

本文介绍了一种基于深度学习的视频行为识别方法，利用双流CNN整合时空信息，通过光流特征增强动态感知，实现在有限数据下优异的分类性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主题：行为识别

摘要：

本篇文章提出了使用深度学习进行视频人物的行为识别，结合了静止画面和帧间的运动信息。所做的贡献主要有三：

1.提出了双流CNN来合并时间和空间网络；

2.证明l了在训练数据有限的情况下，经过多帧密集光流训练的CNN依然能够实现非常好的性能；

3.证明了应用于两个不同数据集的多任务训练可以增加数据量且提升网络在两个数据集上的分类性能。

光流特征表示方式：

1.Optical flow stacking。设起始帧 $\tau$ 的某一点的位置为（u，v），假设下一帧该点的位置变化到（u2，v2），那么这帧的光流特征表示为如上式所示，第一个式子表示（u2，v2）在水平方向相对于（u，v）的变化，第二个式子表示相竖直方向的变化。之后的第n帧该点的光流特征I都是相对于起始帧该点位置（u，v）的变化。所以该点的最终光流特征表示为I（u，v，2L），L表示为帧的数目，乘2是因为分为了水平和竖直两个方向分别计算。有了光流特征，只要知道起始帧该点的位置，就能知道之后的任意帧该点的位置。

2.Trajectory stacking。和方法1相比，方法2的第n帧的光流特征是由第n-1帧表示，如上式所示，所以叫做轨迹堆叠。所以知道某点上一帧的位置就能得到该帧的位置。方法1如下图左边所示，方法2如右图所示。

3.Bi-directional optical flow。方法1和方法2都是前向光流法，即通过 $d_{\tau }$ 得到t+1的像素位置。因此提出双向光流法，即将所有帧按中间分为前后两部分，前一部分使用前向光流计算，后一部分使用反向光流计算（从最后一帧往前算梯度），这两种传播都可以使用方法1或方法2实现。（不知理解是否有误）

4.Mean flow subtraction。这个方法有利于将输入0均值化。在本例中，使用一个简单的方法：从每个位移中减去它们的平均矢量。

5.框架：考虑到cnn需要一个固定大小的输入，因此从 $I_{\tau }$ 抽样得到224X224X2L的子集为输入。各层参数如下图所示。

结果如下：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。