【论文阅读笔记】Two-Stream Convolutional Networksfor Action Recognition in Videos

主题:行为识别

摘要:

本篇文章提出了使用深度学习进行视频人物的行为识别,结合了静止画面和帧间的运动信息。所做的贡献主要有三:

1.提出了双流CNN来合并时间和空间网络;

2.证明l了在训练数据有限的情况下,经过多帧密集光流训练的CNN依然能够实现非常好的性能;

3.证明了应用于两个不同数据集的多任务训练可以增加数据量且提升网络在两个数据集上的分类性能。

 

 

光流特征表示方式:

1.Optical flow stacking。设起始帧\tau的某一点的位置为(u,v),假设下一帧该点的位置变化到(u2,v2),那么这帧的光流特征表示为如上式所示,第一个式子表示(u2,v2)在水平方向相对于(u,v)的变化,第二个式子表示相竖直方向的变化。之后的第n帧该点的光流特征I都是相对于起始帧该点位置(u,v)的变化。所以该点的最终光流特征表示为I(u,v,2L),L表示为帧的数目,乘2是因为分为了水平和竖直两个方向分别计算。有了光流特征,只要知道起始帧该点的位置,就能知道之后的任意帧该点的位置。

2.Trajectory stacking。和方法1相比,方法2的第n帧的光流特征是由第n-1帧表示,如上式所示,所以叫做轨迹堆叠。所以知道某点上一帧的位置就能得到该帧的位置。方法1如下图左边所示,方法2如右图所示。

3.Bi-directional optical flow。方法1和方法2都是前向光流法,即通过d_{\tau }得到t+1的像素位置。因此提出双向光流法,即将所有帧按中间分为前后两部分,前一部分使用前向光流计算,后一部分使用反向光流计算(从最后一帧往前算梯度),这两种传播都可以使用方法1或方法2实现。(不知理解是否有误)

4.Mean flow subtraction。这个方法有利于将输入0均值化。在本例中,使用一个简单的方法:从每个位移中减去它们的平均矢量。

5.框架:考虑到cnn需要一个固定大小的输入,因此从I_{\tau }抽样得到224X224X2L的子集为输入。各层参数如下图所示。

结果如下:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值