Deep RNN Framework for Visual Sequential Applications

Deep RNN Framework for Visual Sequential Applications

来自2019CVPR 上海交大 彭博的论文。

改论文主要面对的问题是
1.RNN网络的深度与RNN的细胞数迟矛盾关系
2.RNN层数过深导致在训练时精度下降
3.RNN增加参数量增加明显

主要贡献:
1.提出了一个新的模型CBM Context Bridge Module
2.提出了一种平滑过度问题1的方法,Overlap Coherence Training Scheme。

CBM Context Bridge Module

在这里插入图片描述
在Cell种蓝色的线代表了representation flows,主要来提取图片的特征信息,红色的线代表temporal flows主要提取时间维度信息,特别的其中R代表了一个计算单元通过CNN实现用来提取特征,T主要是提取时间单元信息(可以时一个单纯的Sigmoid(Conv(·)) (as simple as the conventional RNN) 或者 LSTM)。最后用过ζ对两部分参数进行整合。在本文中主要使用了element-wise production(按元素一个一个相乘)。

整个网络主要目的是用来分开空间维度行的信息与时间维度上的信息,基本上是通过CNN与RNN的结合应用来。特别的由于RNN过深导致训练困难的问题,主要是通过图中虚线来完成,他定义了一个参数Temporal Dropout,主要来限制从T的反向传播,当TD等于1时完全限制回传,当为0时,反向传播不受限制。通过以上操纵主要来减少空间与时间信息的纠缠依赖。
在这里插入图片描述

如图R来提取空间维度上的信息,T主要来提取时间维度上的信息。

Overlap Coherence Training Scheme

这一部分的思路主要来源于,由于RNN深度与广度的矛盾,其中如果输入的video太长就会导致广度增加,使得深度下降,因此人提取使用将输入序列分开的方法,不过就会相对破坏连续序列的时间性。

在这基础上本文做了进一步的改进。

在这里插入图片描述

在原有的基础上通过随机采样的方法,采取多个片段进行训练,这样就会减少输入序列的广度,提高RNN的深度。

这样做主要来的如下几点好处:

1.类似与数据增强,起到数据增强的作用
2.解决梯度消失跟梯度爆炸的问题
3.使得时间信息更加平滑的过度

由于Overlap Coherence Training Scheme因为这一策略提出了响应的损失函数:
在这里插入图片描述

其中Lr是原始的loss,Ld代表overlap coherence loss(主要来强制来自不同剪辑的重叠输出尽可能一致)主要是用的MSE loss。

实验:

Video Action Recognition and Anticipation

在这里插入图片描述

Video Future Prediction

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值