SwinIR速读

最新推荐文章于 2024-09-15 17:22:56 发布

Selina_Zeng

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量366

点赞数 4

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengxiaoyao/article/details/141071902

版权

SwinIR发表在ICCV'21,它核心创新在于使用了SwinTransformer(同年ICCV best paper)进行图像修复，由ETH的CVL提出，大组还是抓前沿抓得好，不仅能想到，还能做出来性能，而且性能还是稳定的增益，通用性强。

目前，SwinIR的引用是2k+，是目前生成式复原模型，广泛使用的修复模型。

这体现出了arxiv的魅力。如果SwinTransformer不提前挂arxiv，也就没有SwinIR。

Q1：假设时间拨回到21年，如果想到swintransformer可以用来做图像修复，first-try是什么？

A1：swintransformer直接替换cnn。

Q2：那么这样做的问题是什么？

A2：首先是图像块的边界失真问题（boderline artifacts），其次边界处的像素由于丢失了相关其他信息而难以修复好。

Q3：不直接在图像上分块能不能避免这个问题？特征能否也考虑cnn的，至少最差也有cnn特征可以使用？

A3：在特征上进行分块，弱化这个问题。其次，使用cnn提取浅层特征，采用residual的结构，这样让swintransformer集中在高频信息学习上。

到此为止，网络结构呼之欲出。

优雅！有效~

由于这是architecture paper，实验中对于结构的ablation study放在了最前面。很喜欢这个探索。

接着是在各个应用上的探索，包括Image SR，JPEG Artifacts Reductuion，Image Denoising充分验证这个修复模型的通用性。

最后，也是我最喜欢的motivation部分。

cnn进行图像修复的问题有2个。动机1: 图像和卷积核的关联性是content-indepent。使用相同的卷积核去修复图像的不同区域也许不是个好选择；动机2: 局部处理的特性使得卷积对于long-range dependency modelling而言并不高效。

swintransformer完美将transformer和cnn优点相结合。首先，由于局部注意力机制，可以像cnn处理大尺寸图。其次，由于shifted window机制，可以很好地具备transformer的model long-range dependency能力。

最终，选择swintransformer是个必然。而且提出了一个实际可用，易于扩展的结构。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。