SwinIR速读

SwinIR发表在ICCV'21,它核心创新在于使用了SwinTransformer(同年ICCV best paper)进行图像修复,由ETH的CVL提出,大组还是抓前沿抓得好,不仅能想到,还能做出来性能,而且性能还是稳定的增益,通用性强。

目前,SwinIR的引用是2k+,是目前生成式复原模型,广泛使用的修复模型。

这体现出了arxiv的魅力。如果SwinTransformer不提前挂arxiv,也就没有SwinIR。

Q1:假设时间拨回到21年,如果想到swintransformer可以用来做图像修复,first-try是什么?

A1:swintransformer直接替换cnn。

Q2:那么这样做的问题是什么?

A2:首先是图像块的边界失真问题(boderline artifacts),其次边界处的像素由于丢失了相关其他信息而难以修复好。

Q3:不直接在图像上分块能不能避免这个问题?特征能否也考虑cnn的,至少最差也有cnn特征可以使用?

A3:在特征上进行分块,弱化这个问题。其次,使用cnn提取浅层特征,采用residual的结构,这样让swintransformer集中在高频信息学习上。

到此为止,网络结构呼之欲出。

优雅!有效~

由于这是architecture paper,实验中对于结构的ablation study放在了最前面。很喜欢这个探索。

接着是在各个应用上的探索,包括Image SR,JPEG Artifacts Reductuion,Image Denoising充分验证这个修复模型的通用性。

最后,也是我最喜欢的motivation部分。

cnn进行图像修复的问题有2个。动机1: 图像和卷积核的关联性是content-indepent。使用相同的卷积核去修复图像的不同区域也许不是个好选择;动机2: 局部处理的特性使得卷积对于long-range dependency modelling而言并不高效。

swintransformer完美将transformer和cnn优点相结合。首先,由于局部注意力机制,可以像cnn处理大尺寸图。其次,由于shifted window机制,可以很好地具备transformer的model long-range dependency能力。

最终,选择swintransformer是个必然。而且提出了一个实际可用,易于扩展的结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值