引言
单图像超分辨率(Single Image Super-Resolution,SISR)旨在从低分辨率图像重建出高质量的图像。随着计算机视觉技术的发展,如何有效提升图像超分辨率算法的性能成为了一个重要的研究方向。近年来,研究人员将自注意力机制引入到计算机视觉领域,并取得了显著的效果。
问题背景及相关工作
CNN技术在单图像超分辨率(SISR)中取得了显著进展,SRCNN作为第一个使用卷积神经网络处理超分辨率的模型,引领了这一领域的发展。后续的VDSR通过残差学习解决了深层网络中的梯度消失问题,而SRGAN则通过生成对抗网络进一步提升了超分辨率图像的质量。ESRGAN引入了残差密集块(RRDB),有效减少了感知损失,生成了更真实的图像纹理。
然而,CNN固有的归纳偏差限制了其捕捉长距离关系的能力。为了解决这一问题,研究人员开始利用自注意力机制在多尺度处理和长距离依赖建模中的优势,开发了基于Transformer的SISR模型,例如SwinIR和HAT等。
Figure 1. SDRCB Framework.
研究目标
本文提出了一种新的混合多轴聚合网络,称为HAAT,以解决现有方法在自注意力计算中的局限性。通过结合Swin-Dense-Residual-Connected Blocks(SDRCB)和Hybrid Grid Attention Blocks(HGAB),HAAT旨在更好地利用特征信息,提高图像重建效果。
核心设计
1. Swin-Dense-Residual-Connected Block(SDRCB):该模块结合了Swin Transformer层和转换层,扩展了接受域,同时保持了简化的设计,从而提高了性能。
2. Hybrid Grid Attention Block(HGAB):HGAB由混合注意力层(MAL)和多层感知器(MLP)层组成,结合了通道注意力、稀疏注意力和窗口注意力,增强了全局特征交互,控制了计算复杂度,提升了图像重建效果。
Figure 2. HGAB Structure.
主要创新点
1. 混合注意力机制:通过结合通道注意力、稀疏注意力和窗口注意力,HGAB能够更好地捕捉全局特征,提高图像重建效果。
2. 简化的架构设计:SDRCB通过结合Swin Transformer层和转换层,在扩展接受域的同时保持了简化的设计,提高了性能。
模型细节设计
SDRCB结合了Swin Transformer层和转换层,利用自适应接受域捕捉长距离依赖。其具体计算过程如下:
Z = H_trans(STL([Z,...Z_{j-1}]), j = 1,2,3,4,5,
SDRCB(Z) = alpha * Z + Z_5,
其中,[·]表示前几层生成的多层特征图的拼接。H_trans(·)指的是带有LeakyReLU激活函数的卷积层,用于特征转换。负斜率设为0.2。Conv1是1×1卷积层,用于自适应融合不同层次的特征。alpha表示残差缩放因子,设为0.2以稳定训练过程。
HGAB结构如下:
X_W1 = W-MSA(F_W1),
X_W2 = SW-MSA(F_W2),
X_G = Grid-MSA(F_G),
X_C = CA(F_in),
X_MAL = LN(Cat(X_W1,X_W2,X_G)+X_C)+F_in,
F_M = LN(MAL(F_in))+F_in,
F_M = LN(MAL(F_M))+F_M,
其中,W-MSA、SW-MSA和Grid-MSA分别表示窗口多头自注意力、移位窗口多头自注意力和网格多头自注意力,CA表示通道注意力,LN表示层归一化,Cat表示特征拼接。
实验结果
本文的HAAT模型在DF2K数据集上进行了训练,这个数据集包括了DIV2K和Flickr2K。DIV2K提供了800张训练图像,而Flickr2K贡献了2650张图像。对于训练输入,本文通过使用缩放因子为2、3和4的双三次下采样方法生成了这些图像的低分辨率版本。为了评估模型的效果,本文使用了著名的SISR基准数据集,如Set5和Set14。
在DRCT架构中,深度和宽度配置与HAT相同。具体来说,这两个模型都有6个RDG和SDRCB单元,中间特征图的通道数为180。对于基于窗口的多头自注意力(W-MSA),注意力头数设置为6,窗口大小为16。在HGAB块中,通道压缩因子为16,中间特征的通道数为180。Grid MSA和(S)W-MSA分别使用3和2个注意力头。高分辨率图像块为256×256像素,从HR图像中提取,并进行随机水平翻转和旋转进行数据增强。
如表1所示,本文的方法在PSNR和SSIM方面优于最先进的技术。
*表格超出部分左右可以滑动
方法 | 缩放比例 | 训练数据集 | Set5 PSNR | Set5 SSIM | Set14 PSNR | Set14 SSIM |
---|---|---|---|---|---|---|
EDSR | ×2 | DIV2K | 38.11 | 0.9602 | 33.92 | 0.9195 |
RCAN | ×2 | DIV2K | 38.27 | 0.9614 | 34.12 | 0.9216 |
SAN | ×2 | DIV2K | 38.31 | 0.9620 | 34.07 | 0.9213 |
IGNN | ×2 | DIV2K | 38.24 | 0.9613 | 34.07 | 0.9217 |
HAN | ×2 | DIV2K | 38.27 | 0.9614 | 34.16 | 0.9217 |
NLSN | ×2 | DIV2K | 38.34 | 0.9618 | 34.08 | 0.9231 |
SwinIR | ×2 | DIFK | 38.42 | 0.9623 | 34.46 | 0.9250 |
CAT-A | ×2 | DIFK | 38.51 | 0.9626 | 34.78 | 0.9265 |
HAT | ×2 | DIFK | 38.63 | 0.9630 | 34.86 | 0.9274 |
DAT | ×2 | DIFK | 38.58 | 0.9629 | 34.81 | 0.9272 |
DRCT | ×2 | DIFK | 38.72 | 0.9646 | 34.96 | 0.9287 |
HAAT (Ours) | ×2 | DIFK | 38.74 | 0.9645 | 34.97 | 0.9287 |
总结与未来展望
本文介绍了一种用于单图像超分辨率的独特的混合注意力聚合变换器(HAAT)。HAAT通过在残差块中加入密集连接,结合滑动窗口注意力机制,以自适应获取全局信息,增强了模型对全局几何信息的关注,优化了其能力,避免了信息瓶颈。此外,受到图像中层次结构相似性的启发,本文提供了HGAB来表示长距离关系。通过整合通道注意力、稀疏注意力和窗口注意力,这种网络提高了多层次结构相似性。实验结果表明,本文的方法在单图像超分辨率任务的基准数据集上优于SOTA技术。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。