主题:行为识别
摘要:
本篇文章提出了使用深度学习进行视频人物的行为识别,结合了静止画面和帧间的运动信息。所做的贡献主要有三:
1.提出了双流CNN来合并时间和空间网络;
2.证明l了在训练数据有限的情况下,经过多帧密集光流训练的CNN依然能够实现非常好的性能;
3.证明了应用于两个不同数据集的多任务训练可以增加数据量且提升网络在两个数据集上的分类性能。
光流特征表示方式:
1.Optical flow stacking。设起始帧的某一点的位置为(u,v),假设下一帧该点的位置变化到(u2,v2),那么这帧的光流特征表示为如上式所示,第一个式子表示(u2,v2)在水平方向相对于(u,v)的变化,第二个式子表示相竖直方向的变化。之后的第n帧该点的光流特征I都是相对于起始帧该点位置(u,v)的变化。所以该点的最终光流特征表示为I(u,v,2L),L表示为帧的数目,乘2是因为分为了水平和竖直两个方向分别计算。有了光流特征,只要知道起始帧该点的位置,就能知道之后的任意帧该点的位置。
2.Trajectory stacking。和方法1相比,方法2的第n帧的光流特征是由第n-1帧表示,如上式所示,所以叫做轨迹堆叠。所以知道某点上一帧的位置就能得到该帧的位置。方法1如下图左边所示,方法2如右图所示。
3.Bi-directional optical flow。方法1和方法2都是前向光流法,即通过得到t+1的像素位置。因此提出双向光流法,即将所有帧按中间分为前后两部分,前一部分使用前向光流计算,后一部分使用反向光流计算(从最后一帧往前算梯度),这两种传播都可以使用方法1或方法2实现。(不知理解是否有误)
4.Mean flow subtraction。这个方法有利于将输入0均值化。在本例中,使用一个简单的方法:从每个位移中减去它们的平均矢量。
5.框架:考虑到cnn需要一个固定大小的输入,因此从抽样得到224X224X2L的子集为输入。各层参数如下图所示。
结果如下: