重新思考视频超分辨 Transformers 中的对齐

我爱计算机视觉

于 2022-08-19 12:21:17 发布

阅读量1.7k

点赞数 1

文章标签：网络大数据算法 python 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/126434184

版权

本文探讨了Transformer在视频超分辨率(VSR)中的对齐问题，指出直接使用未对齐的多帧信息可能优于传统对齐方法。实验表明，Transformer能处理小范围的未对齐，但对齐方法可能对性能产生负面影响。文章提出了补丁对齐方法，以解决对齐带来的亚像素信息损失，实现在REDS4上达到32.72dB的SOTA性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

笔者言： XPixel的又一力作，作者在各个方面分析了应用在Transformer中使用各种现有对齐方法，进一步说明了保存亚像素信息的重要性，并提出图像补丁对齐方法，在REDS4上达到了32.72db。

作者单位：清华深研院、上海人工智能实验室、悉尼大学等
论文名称：Rethinking Alignment in Video Super-Resolution Transformers
论文链接：https://arxiv.org/pdf/2207.08494.pdf

01

看点

对齐向来是 VSR 中的重要操作，然而自注意机制的进展可能会违背这一常识。本文重新思考了 Transformer VSR 中对齐的作用，并进行了一些反直觉的观察。

实验表明：

Transformer VSR 可以直接使用未对齐的多帧信息
现有的对齐方法可能并不适用 Transformer VSR

观察表明，简单的移除对齐模块并采用更大的注意窗口可以进一步提高 Transformer VSR 的性能。然而，这种设计将大大增加计算负担，并不能处理大的运动。为此，本文提出了一种补丁对齐方法，该方法利用图像补丁代替像素进行对齐以实现SOTA表现。

02

方法

VSR Transformer

本研究中使用的 VS

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。