关注公众号,发现CV技术之美
笔者言: XPixel的又一力作,作者在各个方面分析了应用在Transformer中使用各种现有对齐方法,进一步说明了保存亚像素信息的重要性,并提出图像补丁对齐方法,在REDS4上达到了32.72db。
作者单位:清华深研院、上海人工智能实验室、悉尼大学等
论文名称:Rethinking Alignment in Video Super-Resolution Transformers
论文链接:https://arxiv.org/pdf/2207.08494.pdf
01
看点
对齐向来是 VSR 中的重要操作,然而自注意机制的进展可能会违背这一常识。本文重新思考了 Transformer VSR 中对齐的作用,并进行了一些反直觉的观察。
实验表明:
Transformer VSR 可以直接使用未对齐的多帧信息
现有的对齐方法可能并不适用 Transformer VSR
观察表明,简单的移除对齐模块并采用更大的注意窗口可以进一步提高 Transformer VSR 的性能。然而,这种设计将大大增加计算负担,并不能处理大的运动。为此,本文提出了一种补丁对齐方法,该方法利用图像补丁代替像素进行对齐以实现SOTA表现。
02
方法
VSR Transformer
本研究中使用的 VS