《论文阅读》Video Super-resolution with Temporal Group Attention

最新推荐文章于 2025-02-04 09:00:00 发布

未知丶丶

最新推荐文章于 2025-02-04 09:00:00 发布

阅读量2k

点赞数

分类专栏：计算机视觉深度学习文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_43310834/article/details/108456801

版权

深度学习同时被 2 个专栏收录

107 篇文章

订阅专栏

计算机视觉

91 篇文章

订阅专栏

留个笔记自用

Video Super-resolution with Temporal Group Attention

做什么

Video super-resolution视频超分辨，经典应用，低分辨率的图片在放大后必然是模糊的，超分辨做的便是将低分辨的图片转化成高分辨率的图片并且做到清晰。
在这里插入图片描述
这里的视频超分辨也是同样一个意思，不过将图片转换成了视频的某个部分，但这里有所增加的依靠便是视频存在着上下帧。

做了什么

在这里插入图片描述
简单来说就是针对不同的帧速率融合时空信息，获得了更细致的前后相关的纹理，还应对了大运动的特殊情况

怎么做

在这里插入图片描述
整体结构分为四个部分，Temporal Grouping部分、Fusion部分、upsample部分、Fast Spatial Alignment部分，输入为一串视频序列

将序列分为三个部分，参考帧、前相邻帧、后相邻帧，整体的作用是通过前后相邻帧的时空信息来重建参考帧，如图中的示例为7帧，这时候可以将其第四帧作为参考帧，1-3作为前相邻帧，5-7作为后相邻帧。总而言之，总帧数为2N+1，前相邻帧为N，后相邻帧为N，参考帧为1
在这里插入图片描述
首先是Temporal Grouping和Fusion部分

这部分的输入为2N+1的帧序列，这时候保证参考帧存在的情况下，其他帧根据与参考帧的距离分为N组，即与参考帧距离为1，2，3，…N（这里N=3）

然后是fusion部分，首先是对N个不同dilation的帧序列进行intra-group fusion，这里的fusion是为了对每组的特征提取，每个模块的结构都相同，均为3×3卷积+BN+3×3×3的3D卷积和dense等组成。值得注意的是这里的卷积使用的是空洞卷积，空洞卷积的dilation和每组的dilation相同，至于空洞卷积前面学过👉空洞卷积
然后是inter-group fusion部分，这部分是为了整合上面module得到的不同组的特征，输入就是特征，这里标记符号位F_n^g，对每个F_n^g进行一次3×3卷积后得到这一module的输入F_n^a，然后将所有组的特征concatenate起来后对每个位置进行softmax操作，得到对应的M₁-M_N，这一步是为了得到每个像素的时序attention
在这里插入图片描述

然后将M结合特征F_n^g得到attention后的特征

最后便是把这成熟的N个特征进行整合，首先先看下这里的整合结构

上面M₁和F₁^g即为上面的attention map和特征，逐元素相乘后得到F_n^a，将所有的F_n^a堆叠起来，然后经过一个3D卷积来变化通道，同时也对所有组特征进行整合。然后再经过类似结构的2D block来进行进一步融合，称之最后得到的featuer为integrated feature。
然后是upsample部分
在这里插入图片描述
这部分的输入是前面的integrated feature，经过一个depth-to-space的操作将所有特征转化到一张图上，这张图即为Residual Map R_t，将这张图和对参考图的双三次上采样的结果融合得到最后的结果图。
这里的depth-to-space操作的意思通俗易懂些，就是把输入为[batch, height, width, channels]形式的Tensor，其在depth维的值将移至height和width维的
最后是Fast Spatial Alignment即空间对齐部分
在这里插入图片描述
这部分主要是为了解决上面不太好解决的一个问题，就是运动较大的时候

这里的做法暂时还未理解，大致意思是先使用SIFT等方法计算图片的兴趣点，然后使用兴趣点来计算图片的单应性，针对相邻的帧采取扭曲防止运动过大
在这里插入图片描述