光流方法总结三

总结三:这部分应该不能算光流部分了,主要是一些光流在其他应用的辅助等。

Semantic Flow for Fast and Accurate Scene Parsing

论文:https://arxiv.org/pdf/2002.10120.pdf
代码:github.com/donnyyou/torchcv

主要是一个针对于分割的上采样方法,即大多数分割网络的上采样部分是直接的双线性上采样。这样子做的缺陷就是边缘部分不够精确(就像小图直接放大一样)。针对这个问题提出一个上采样模块FAM(Flow Alignment Module)。
在这里插入图片描述
PPM:Pyramid Pooling Module。与deeplab系列中的ASPP差不多。
FAM:Flow Alignment Module,如下图,其输入为2个特征图,一个是backbone中提取的特征图,一个是FPN中要上采样的特征图。即2个特征图的大小是不一致的。
在这里插入图片描述
FAM的具体结构如下。右侧低分辨率特征图经直接上采样后与左侧⾼分辨率的特征图concat。⽽后经过3*3卷积⽣成双通道的offset特征图(即Flow Field)。后如(b)所⽰。Flow Field对Low Resolution做warp操作。得到high resolution。实现上采样
在这里插入图片描述
作者的意思应该就是在上采样的过程中,分辨率较高的特征图能指引分辨率较低的特征图,通过offset对低分辨率的特征图微调其位置。而offset的生成方式是参考光流的方法(FlowNetSimple)。

小结:offset的生成过程中,本意是引入光流的思想。但是concat后加一个3*3的卷积与其说是光流,更不如说是DCN。其形式更像是一种能上采样的DCN方法。

Flow-Guided Feature Aggregation for Video Object Detection

论文:https://arxiv.org/pdf/1703.10025.pdf
代码:https://github.com/msracver/Flow-Guided-Feature-Aggregation

⼀种视频⽬标检测⽅法。由光流进⾏辅助。17年的论⽂,没细看。
取当前帧t与第t-10帧和第t+10帧分别求光流。⽽后根据光流将第t-10帧和第t+10帧的特征warp后与当前帧的特征图融合。⼀起送⼊后续进⾏检测。其本意是在视频目标检测中,当前帧可能存在模糊等情况。但是其前后帧清晰时,可以warp过来辅助当前帧的检测。
在这里插入图片描述

Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow

论文:https://arxiv.org/pdf/1911.12739.pdf
光流与分割结合的论文。因为视频分割标注数据昂贵。文中提出的方法针对那种一个几十帧的短视频里只有一帧有分割标注的情况。

即主要思想是一种一致性思想。即输入为2帧,一帧有分割标注,一帧无分割标注。其思想是通过求2帧的光流可以获得2帧之间的坐标对应。当坐标对应上时其label也应该对应上。于是没有分割标注的那一帧就可以通过光流从有标注帧那里获取标注。

End-to-end Flow Correlation Tracking with Spatial-temporal Attention

https://zhuanlan.zhihu.com/p/35063097把光流和tracking统一到一个网络里,应该算是跟踪模型,只是加入FlowNet辅助。
论文:https://arxiv.org/pdf/1711.01124.pdf
在这里插入图片描述
即跟踪用的filter生成过程中用了之前几帧的信息。加入光流网络。

  1. Historical branch(论文中T取6)(inference是否需要前6帧的标注?)
    • FlowNet : 即输入2帧,提取光流信息。(FlowNet不知道是不是已经训练好的)
    • FeatureNet:特征提取网络
    • warp:特征按光流warp
    • Spatial-temporal attention module: 用来产生加权权重对(T-1)组输入加权。类似SE-Net
  2. Current Branch:只经过FeatureNet提取当前帧特征
  3. 最终将2个分支的输出做correlation filter操作,进行跟踪

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

论文:https://arxiv.org/pdf/1608.00859.pdf 光流在行为识别上的辅助

网络结构如下。为双流网络。首先将输入的视频均分为k个片段{S1,S2,…,Sk}(这K个片段中有时间上的顺序关系了)。随后分别从k个片段中分别随机采样子序列{T1,T2,…,Tk}输入网络中(从子序列中获取当前片段的特征信息,不同的视频分k个片段后,其片段的长度不同。因此从每个片段中取固定长度的子序列)。

Spatial ConvNet :输入为单帧RGB图片,输出为每个类别的score。
Temporal ConvNet : 输入为多帧(stack optical flow,文中作者试了warp flow)输出为每个类别的score。
Segmental Consensus :combine每个片段预测结果。
在这里插入图片描述

TSM: Temporal Shift Module for Efficient Video Understanding:

论文:https://arxiv.org/pdf/1811.08383.pdf
代码:https://github.com/mit-han-lab/temporal-shift-module
https://zhuanlan.zhihu.com/p/66251207

提出一种可以替代3D卷积的模块temporal shift module。在一些视频处理中,可以只用2D CNN的复杂度去获取3D信息(如时间上的维度)。

对于视频识别任务,通常需要用3D卷积对帧间的时间关系进行建模。

而在本文中,提出temporal shift module,通过在通道上混合相邻帧的信息。实现只用2D卷积也能同时获取不同帧之间的信息。

3D卷积中结构为(N,C,T,H,W)。先不看N,H,W。图示a中,纵轴为时间序列T,横轴为Channel。正常的2D卷积不考虑不考虑 T 轴,只对属于同一帧的channel操作。
图 b 则为作者提出的temporal shift module使channel在 T 轴上移位后在用2D卷积去提取信息。此时便可以同时提取到相邻帧之间的信息,而不再是独立的帧信息。

图c则是应用于实时情况下(未来帧不能提前获得时),当前帧不能获取未来的信息。因此shift的方向只保留向后移。
在这里插入图片描述

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

论文:http://openaccess.thecvf.com/content_ICCV_2017/papers/Qiu_Learning_Spatio-Temporal_Representation_ICCV_2017_paper.pdf
代码:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
接上篇TSM,也是一篇压缩3D卷积的计算量文章。
仿照mobileNet的depthwise CNN,将3D卷积时序轴分解开来。如本来3D卷积为3x3x3(时序轴上为3,H=3,W=3)的卷积分解为(3x1x1)+(1x3x3)。即先在每一帧上独立做3*3的2D卷积,然后再在时间轴上用一个3x1x1的卷积串起来。
3种P3D结构
S:空间域卷积
T:时间域卷积
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值