SlowFast学习

SlowFast简介

尽管图像分类的准确率已经很高,视频分类工作的准确度也仍达不到近似于人类的理解层次,因此不能用传统的卷积分类方法来对视频进行分类,于是Facebook的AI研究团队提出了一种新方法来SlowFast分析视频片段里的内容。该方法受启发于人类视网膜神经元的工作机制,使用了一个快通道来分析视频中人类的动作,还有一个慢通道来识别视频中人物活动的背景。

SlowFast工作原理

SlowFast卷积原理

在这里插入图片描述
上图是SlowFast网络的工作原理。卷积核的尺寸记作{T×S², C},其中T、S和C分别表示时序, 空间和频道的尺寸。速度比率(跳帧率) 为α,代表Fast通道帧率为Slow通道的α倍,频道比率为β,代表Fast通道的卷积核个数为Slow通道的1/β。
快慢通道进行多轮卷积、池化和侧向连接之后送入一个全连接层,该层使用softmax得出预测结果。

侧向连接

每一轮卷积之后,Fast通道要把提取好的动作特征融合到Slow通道中,这样子Slow通道在下一轮卷积中就可以分别按顺序提取背景特征和动作特征,用于更好地识别人物的动作,但是两个特征矩阵的大小并不一致,论文中给出了三种融合策略:

1.将Fast通道的{αT, S², βC} 特征矩阵变形转置为 {T , S², αβC},就是说把α帧压入一帧
2.简单地每隔α帧进行采样,{αT , S², βC} 就变换为 {T , S², βC}
3.用一个5×1^2的卷积核对Fast通道的特征矩阵进行3D卷积操作,输出时间维度与Slow通道一致的特征矩阵并进行拼接

SlowFast网络实例

在这里插入图片描述
上图为一个SlowFast网络实例,在拿到一个视频时,要先对其进行抽帧操作,使其分为Slow和Fast两个通道的数据,然后分别对两个通道的数据进行卷积,并进行侧向连接,为了减少模型训练过程中的过拟合现象,后几层网络采用resnet网络进行卷积操作。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值