论文笔记：Revisiting Temporal Modeling for Video Super-resolution（重新审视视频超分辨率的时间建模） Part1 系咁嘅啦-CSDN博客

本文链接：https://blog.csdn.net/Arsenal_ZHQ/article/details/111117479

本文深入探讨了视频超分辨率中时间建模的重要性，比较了2D CNN、3D CNN和RNN三种方法，提出了一种新的递归残差网络（RRN），在保持计算效率的同时提升视频超分辨率性能，尤其是在时间一致性上表现优越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用，在研究界和工业界都引起了广泛的关注。尽管已经提出了许多基于深度学习的VSR方法，但是由于不同的损失函数和训练数据集对超分辨率结果有重大影响，因此很难直接比较这些方法。在这项工作中，我们仔细研究和比较了三种时间建模方法（具有早期融合的2D CNN，具有缓慢融合的3D CNN和递归神经网络）来实现视频超分辨率。**我们还提出了一种新颖的递归残差网络（RRN），以实现有效的视频超分辨率，其中利用残差学习来稳定RNN的训练并同时提高超分辨率性能。**大量实验表明，所提出的RRN具有很高的计算效率，并且与其他时间建模方法相比，其时间一致性VSR结果具有更好的细节。此外，所建议的方法可以广泛使用基准测试结果。

简介

超分辨率是低级视觉领域中传统的但仍是动态的主题，其目的是从相应的低分辨率对应物生成高分辨率图像。近年来，由于对手机和超高清显示器的需求不断增长，它引起了人们的极大关注*（比如我现在的ipad和电脑显示屏都是2k的分辨率但如果看的视频源文件是480p，即使是用苹果的原彩显示屏也区别不大）*过去几年中，单图像超分辨率（SISR）取得了显着进步，这得益于深度学习的进步。最近，由于视频序列应包含更多丰富的信息，因此更多的注意力已转移到视频超分辨率（VSR）。与依靠自然图像先验和图像中的自相似性来恢复丢失的细节的SISR相比，VSR能够利用相邻帧中的其他时间信息来进一步提高SR的质量。
先进的VSR工作分为两类：
1.基于的显式运动补偿的时间建模
2.基于隐式运动补偿的方法
基于显式运动补偿的方法kappeler等人建议基于离线估计的光流将所有相邻帧扭曲到参考帧； VESCPN [是第一种通过联合训练光流估计和时空网络的端到端视频SR方法。
但是，这些工作对于VSR而言并不理想，因为不正确的运动估计和对齐会导致错误并降低超分辨率性能。此外，光流的计算通常会带来沉重的计算负担，这限制了将这些方法部署在实际系统中。
而VSR的另一个分支探索了高级时间建模框架，以隐式方式利用运动信息。通常，时间建模框架已被广泛使用：具有早期融合CNN的2D，具有缓慢融合的3D CNN 和递归神经网络（RNN）

在论文中，作者通过使用固定损失函数（L1损失）和训练数据来全面研究不同时间建模方法对VSR任务的有效性
具体来说，作者探索三种常用的时间建模方法：<