Two-Stream Convolutional Networks for Action Recognition in Video

Two-Stream Convolutional Networks for Action Recognition in Video

我们提出了一种有区分训练的卷积网络来识别视频中的动作。挑战是从视频帧中获取外观和运动的互补的信息。我们的三个贡献:第一,提出了时间和空间分离的两路卷积网络结构。第二,证明了在多帧密集光流上训练,能够实现很好的性能。第三,多任务学习,应用在两个不同的动作分类数据集上,能够增加训练的数据量,提高性能。

视频能够被分为时间和空间两部分。在空间部分,每一帧的表现形式,携带有场景和目标等信息。在时间部分,在帧与帧之间存在运动信息,包含目标物体和相机的运动信息。每一流用一个深度卷积网络来实现,每一流的softmax分数在最后进行融合。我们考虑了两种融合的方法:求平均值和在一个叠放的L2正则化的softmax得分上训练一个多类的线性SVM。

光流卷积网络:我们模型的输入是几个相邻帧的堆叠的光流位移。这些输入能够描述出视频帧的运动信息。

光流堆叠:一个密集的光流能够被看做是一系列连续帧的位移向量。水平和垂直两部分分开。为了表示一个序列帧的运动信息,我们堆叠L个连续帧的流通道来形成一个总数为2L个输入通道。

轨迹堆叠:另一个可供选择的运动表示,受到基于轨迹描述子的启发,取代光流,在连续几帧相同的位置上采样,根据光流,得到轨迹的运动信息。

双向光流:

减去平均光流:

时间域卷积网络结构与先前的表示的关系:在本文中,运动信息通过用光流位移来准确的表示。

多任务学习:因为视频训练的数据集相对较小,容易产生过拟合,为了避免这种情况的发生,我们合并多个数据集。

实现细节:卷积网络的配置,所有的隐含层用ReLU激活函数;max pooling的大小为3*3,步长为2;时间网络和空间网络位移的不同就是,我们删除了时间网络第二层的正则化来减少内存消耗。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值