前言:视频插帧方法CAIN,不用光流的pixelshuffle+channel attention的方法
论文地址:【here】
代码地址:【here】
Channel Attention Is All You Need for Video Frame Interpolation
前言
目前的一些视频插帧方法多用到光流
但是基于光流插帧的方法有以下缺点:
第一:计算量大
第二:有的方法在训练的时候用到了光流做真值,which is tricky因为真实的运动信息并不可得;
这篇文章用得到了pixelshuffle的方法+通道注意力,可以不用光流实现有效的视频插帧
补充知识Pixelshuffle
即把空间像素分辨率(相邻顺序排列)化成通道数
参考论文:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
网络架构
- 将左右两帧pixelshuffle后在通道域cat起来
- 然后过resGroup模块(利用了通道注意力)
- 最后upshuffle回原尺寸
其中,pixelshuffle的参数设置
s=8,即长宽伸缩8倍,通道数64,原RGB三通道变成了364=192,cat上左右两张图的通道,即1922=384,过一个初始的33卷积层,将通道数降到192
其中,resGroup的结构如下
其中resGroup接了5个,每个里面有12个RCAblock
CA为通道注意力模块,att(F)指代的就是注意力权重,具体公式为
可看成上图右侧CA module图中竖直下来的那个分支
至此,网络设计就完成了
实验
对比实验(其中FILM数据集是自制的)
感觉通道注意力提升效果并不明显
参数量
参数量减少优势不明显,但是memery减少了不少,这就去我4G显存的电脑跑下试试看
总结
利用pixelshuffle降显存和参数量,并用到了通道注意力