Vision Transformers for Single Image Dehazing简要概括

        这是篇基于Swin transformer来设计的图像去雾网络,损失函数选择L1。

1.整体架构

181a5296c3fd42768065b430fcb87531.png

         整体的网络架构是类U-net结构,图中DehazeFormer块中用虚线框表示的组件表示可选,MHSA和RescaleNorm、镜像填充和裁剪cropping仅在需要移动窗口分区时使用。

        回顾Swin transformer:给定输入特征图X,用线性层映射到QKV上,使用窗口分区对token进行分组。下面的Q, K, V对应于单个窗口和头,其中l是窗口中的token,d是维度。自注意表示为:

cc3775c811774edd8503199ddb146848.png

        其中B是相对位置偏置项。一个线性层跟随它来映射注意力的输出。

        DehazeFormer块不同于原来的Swin Transformer,SK融合层和软重建层来取代拼接融合层和全局残差学习。SK融合层来自于SKNet,即使用通道注意力来融合多个分支。设两个特征图x1,x2用映射层f将x1映射为1cc2d9d593a1476ba84cc2c06e9a45a3.png,作者使用平均池化GAP(·),MLP (Linear-ReLU-Linear) FMLP(·)等运算得到权值:

1e1cd2c416da4474995b423bd7aaadea.png

 下一步使用权重{a1, a2}来融合x 1, x2,方式为y = a1x 1 + a2x2 + x2。目前去雾网络一般预测重建图像J (x)或全局残差R(x) = J (x)−I(x)。在退化模型是一个近似值,且没有强约束的情况下引入先验是有益的,将模糊图像退化公式改写为:

cc6089fe1cc44a268437b7b208279835.png

         该公式就是软重构,其中,K (x) = 1 / t (x)−1并且B (x) =−(1 / t (x)−1)A。用网络预测O,并将O分成K,R。因此,网络架构软限制了K(x)和B(x)之间的关系,这种弱先验允许网络退化以预测全局残差(即K(x) = 0, B(x) = R(x))。

2.RescaleNorm

        回顾LayerNorm,假设特征映射的形状x∈R b×n×c,其中n = h × w(即高度和宽度),归一化过程可表示为:

5741653ee96d4b2cacf77d8af0bc92b1.png

 

        其中µ和σ表示均值和标准差,γ和β表示学习因子和偏差,i = (ib, in, ic)。在LayerNorm中,μ和σ沿c轴计算,使得µ,σ∈R b×n。

        改进:作者认为均值和标准差与图像的亮度和对比度是相关的,所以在LayerNorm之后,将patch之间的相对亮度和对比度丢弃。对此,沿着(n, c)轴计算µ和σ,从而得到µ,σ∈R b。这种归一化方法称LayerNorm†。

        对比:当插入LayerNorm后,清楚地看到有斑块出现在重建图像中。由于这种自编码不涉及patch间的相互作用,它只能以牺牲富纹理区域为代价来记忆天空区域的统计信息。通过改变LayerNorm为LayerNorm†,结果上很大程度上克服了负面影响。下图是分析归一化方法的自编码器。从左到右是自编码器架构、输出图像和误差图。

7ff87bb788f94939ad9ad884d6e0d11f.png

         

        再改进:LayerNorm†仍然丢弃了特征映射的平均值和标准差。所以作者提出Rescale层规范化(RescaleNorm),它计算的均值和标准差被保存并在残差块的末尾引入。具体来说,先取µ,σ∈R b×1×1,并通过LN公式将输入特征映射x归一化为x14972b8913b3a42e58616e4d36b27960c.png。然后,使用F(·)来处理84e2e21257b04da0aa8427c1920c232d.png以获得2665eb6599584634915d36b28cf3051a.png的输出。

        使用权重为Wγ, Wβ∈R的两个线性层1×c和偏差Bγ,Bβ∈R,1×1×c转换μ和σ通过{γ, β} ={σWγ +Bγ,µWβ +Bβ},其中γ,β∈R b×1×c。为加速收敛,作者将Bγ和Bβ初始化为1和0。将γ和β注入到y中,以重新引入平均值和标准偏差:

5292c361b5064f209880024371a16e69.png

 3. SoftReLU

        实验中,ReLU和LeakyReLU在图像去雾方面优于GELU。因为GELU不容易反转。如果把GELU看作一个图像滤波器,由于它的非单调性,会引起梯度反转问题。GELU性能较差的另一个原因是GELU的非线性较强,因此,这里提出了SoftReLU,它是一个近似ReLU的平滑函数:

af8f3a7c37db447b82ca4dc38d62dcf8.png

         其中α是形状参数。设α = 0时,SoftReLU等价于ReLU。为了模拟GELU,在实验中设置α = 0.1。

4. 带有镜像填充的移位窗口分区

        Swin Transformer使用带有屏蔽MHSA的循环移位来实现移位窗口分区的patch处理。由于屏蔽,图像边缘的窗口大小小于设置的窗口大小。对于图像去雾,图像边缘和图像中心同样重要。较小的窗口导致窗口中的token数量更少,这会使网络的训练产生偏差。Swin Transformer提出的填充方案相当于循环移位。于是作者使用镜像填充而不掩蔽。这种方法的缺点是引入了计算成本。幸运的是,当图像尺寸变大时,边缘区域的百分比会变小。

5. W-MHSA-PC

27ba83b02cbf4979b87d937601046acc.png

 

981704cf451141069d6a63f8c1d468b9.png

         虽然MHSA的空间信息聚合权值是动态的,但其权值始终为正,具有平滑作用。与MHSA的空间信息聚合对应,文章在V上卷积,所以新的空间信息聚合公式:

acb1c8c1bcf5419ca3f4e500a18a6250.png

        其中V表示窗口分区前的V, Conv(·)既可以是DWConv也可以是ConvBlock(Conv-ReLU-Conv)。也就是仍用注意机制来聚合窗口内的信息,同时使用卷积来聚合邻域内的信息,而不考虑窗口划分。此外,文章在某些编码浅层和解码层块中丢弃了MHSA。

        这里使用卷积来提取高频信息,而不是作为位置嵌入。DehazeFormer的卷积层是在窗口划分之前在V上执行的,因此它增强在窗口之间聚合信息的能力。

 

 

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
回答: 本文提出了一种名为EfficientFormerV2的高效网络,旨在重新思考Vision Transformers以实现与MobileNet相当的模型大小和速度。作者结合了细粒度联合搜索策略,通过一系列的设计和优化,使EfficientFormerV2在相同参数量和延迟下比MobileNetV2在ImageNet验证集上的性能高出4个百分点。\[1\]该网络的设计考虑了资源受限型硬件的需求,特别关注模型的参数量和延迟,以适应端侧部署的场景。\[2\]如果您对EfficientFormerV2感兴趣,可以通过扫描二维码或添加微信号CVer222来获取论文和代码,并申请加入CVer-Transformer微信交流群。此外,CVer学术交流群也提供了其他垂直方向的讨论,包括目标检测、图像分割、目标跟踪、人脸检测和识别等多个领域。\[3\] #### 引用[.reference_title] - *1* *3* [更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer](https://blog.csdn.net/amusi1994/article/details/128379490)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [EfficientFormerV2: Transformer家族中的MobileNet](https://blog.csdn.net/CVHub/article/details/129739986)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值