【笔记】Transformer for Single Image Super-Resolution

Lyn0717

于 2023-03-01 19:38:06 发布

阅读量585

点赞数

文章标签：计算机视觉图像处理超分辨率重建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lyn0717/article/details/129288025

版权

本文提出了一种轻量级的Transformer模型，专注于图像超分辨任务。该模型包括LightweightCNNBackbone（LCB）来预处理特征，HighPreservingBlock（HPB）结合High-frequencyFilteringModule（HFM）和AdaptiveResidualFeatureBlock（ARFB）进行特征提取。核心的LightweightTransformerBackbone（LTB）利用EfficientTransformer（ET）捕捉长程依赖，减少了计算成本。实验结果显示了模型的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

本文介绍了一种用于图像超分辨的Transformer，与之前的一些视觉Transformer模型相比更加轻量化，计算量更小，并占用更小的显存

Lightweight CNN Backbone（LCB）

LCB的作用是提前生成潜在的超分辨特征，使模型获得初始的超分辨能力

High Preserving Block（HPB）

HPB用来降低生成特征的分辨率

HPB中含有High-frequency Filtering Module（HFM）和Adaptive Feature Block（ARFB）

High-frequency Filtering Module（HFM）

HFM的作用是从LR空间中估计图像的高频信息

Adaptive Residual Feature Block（ARFB）

ARFB是一个基础的特征提取模块

ARFB中含有两个Residual Units（RU），两个卷积

RU由Reduction 和 Expansion两个部分组成。

Reduction会将特征图的通道减少一半
Expansion会将其恢复

residual scaling with adaptive weights（RSA）用来动态调整两个前向分支（残差和主干）的权重。

Lightweight Transformer Backbone（LTB）

与之前的各种视觉Transformer相比，LTB可以以较低的计算代价捕获图像中相似的局部区域的长程依赖关系。

图像特征在ET前后的处理

由于展开操作自动反应了每个patch的位置，所以不用进行可学习的位置嵌入，在展开后，这些patch的特征F_p将作为ET的输入，ET的输出与输入形状相同，可以使用Flod操作将输出恢复为特征图。

Efficient Transformer(ET)

ET只使用了Transformer的编码器结构

ET由Efficient Multi-Head Attention和MLP两部分组成，并且在每个部分后都使用了Layer Norm。

具体的计算细节建议看原文

一些实验结果

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。