UNet 改进(25)：结合Shift-Transformer结构

最新推荐文章于 2025-05-14 16:05:21 发布

点我头像干啥

最新推荐文章于 2025-05-14 16:05:21 发布

阅读量346

点赞数 12

分类专栏： Unet 模型改进文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/2401_82355416/article/details/147914151

版权

Unet 模型改进专栏收录该内容

26 篇文章 ¥39.90 ¥99.00

订阅专栏

1.介绍

本文将详细介绍一个结合了Shift-Transformer模块的UNet网络实现，这是一种将传统卷积神经网络与自注意力机制相结合的创新架构。

网络概述

这个网络是基于经典的UNet架构，但在瓶颈层(bottleneck)加入了Shift-Transformer模块，旨在结合CNN的局部特征提取能力和Transformer的全局建模能力。

核心组件解析

1. ShiftTransformerBlock

ShiftTransformerBlock是整个网络中最具创新性的模块，它结合了卷积操作和自注意力机制：

class ShiftTransformerBlock(nn.Module):
    def __init__(self, dim, num_heads=4, shift_size=5, mlp_ratio=4., qkv_bias=False, drop=0., attn_drop=0.):
        super().__init__()
        self.norm1 = nn.LayerNorm(dim)
        self.shift_size &#

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

点我头像干啥

关注关注

12
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Swin-Transformer-UNet改进：融合Global-Local Spatial Attention (GLSA) 模块详解

Henry的博客

04-16

740

Global-Local Spatial Attention (GLSA) 是一种先进的注意力机制模块，专为计算机视觉任务设计，能够同时捕捉全局上下文信息和局部细节特征。该模块通过创新的双分支结构和自适应融合机制，显著提升了特征表示能力。核心设计原理1. 双分支架构全局分支：通过全局平均池化和全连接层建模整个图像空间的长期依赖关系局部分支：通过多尺度卷积操作捕捉不同感受野范围内的局部空间模式2. 自适应融合机制。

UNet++ 改进：添加Swin Transformer模块

Henry的博客

04-15

Swin Transformer将图像划分为不重叠的窗口(如7×7)，在每个窗口内计算自注意力。Swin Transformer在图像分类、目标检测、语义分割等任务上都取得了优异性能，已成为视觉Transformer的重要基准模型之一。Swin Transformer通过这种巧妙的设计，在计算效率和模型性能之间取得了很好的平衡，推动了视觉Transformer的发展。Swin Transformer是微软亚洲研究院在2021年提出的一种基于Transformer的视觉骨干网络，它通过引入。

参与评论您还未登录，请先登录后发表或查看评论

[Transformer]Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

qq_37151108的博客

10-20

4874

Swin-UNet：基于纯Transformerde的医学图像分割网络 Abstract 近年来CNN已经成为医学图像分析任务的基础结构，尤其是融合了编解码结构和skip-connection的U型网络广泛应用于各种医学图像分析任务。然而受限于卷积操作的局部性，CNN并不能很好的学习全局信息以及长程语义信息。本文提出的Swin-UNet,是一个纯基于Transformer搭建的U型网络，可以用于医学图像分割任务。 Swin-UNet取标记后的图像patch作为输入，搭建的U型网络包含编解码结构以及skip

Swin-Unet： Unet-like Pure Transformer forMedical Image Segmentation（用于医学图像分割的纯U型transformer）

weixin_45622568的博客

10-09

971

在过去的几年中，卷积神经网络(cnn)在医学图像分析方面取得了里程碑式的进展。特别是基于u型结构和跳跃连接的深度神经网络在各种医学图像任务中得到了广泛的应用。然而，尽管CNN取得了优异的性能，但由于卷积运算的局域性，它不能很好地学习全局和远距离的语义信息交互。在本文中，我们提出了swin - unet，这是一个类似unet的纯医学图像分割变压器。将标记化后的图像片段输入到基于transformer的U型编码器-解码器架构中，并使用跳过连接进行局部全局语义特征学习。

【ECCV2022】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

m0_61899108的博客

08-22

3872

文如题名，本文使用纯Transformer构建Unet网络，用于医学图像分割。本文用Swin Transformer替换Unet全部结构，构建出Swin-UNet。

Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement

u013049912的博客

11-20

1996

在增强低光图像时，许多深度学习算法都是基于 Retinex 理论。然而，Retinex 模型没有考虑隐藏在黑暗中或由点亮过程引入的损坏。此外，这些方法通常需要繁琐的多阶段训练流程，并依赖于卷积神经网络，在捕获远程依赖性方面表现出局限性。在本文中，我们制定了一个简单但有原则的基于 Retinex 的单阶段框架（ORF）。ORF 首先估计照明信息以照亮低光图像，然后恢复损坏以生成增强的图像。我们设计了一个照明引导变压器（IGT），它利用照明表示来指导不同照明条件下区域的非局部交互的建模。

Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

weixin_44994838的博客

05-21

493

B×Bx∈RH×W×Cxb∈Rh×w×B2×CzijnijPiON2)ON。

【图像去噪】论文精读：SUNet: Swin Transformer UNet for Image Denoising

11-09

612

论文题目：SUNet: Swin Transformer UNet for Image Denoising —— SUNet:用于图像去噪的Swin Transformer UNetISCAS 2022！Swin U-Net用于图像去噪！图像恢复是一个具有挑战性的问题，也是一个长期存在的问题。在过去的几年里，卷积神经网络 (CNN) 几乎主导了计算机视觉，并在包括图像恢复在内的不同级别的视觉任务上取得了相当大的成功。

Swin-Unet：Swin Transformer在医学分割上的首次尝试

weixin_43788575的博客

11-01

8193

Swin-Unet：Swin Transformer在医学分割上的首次尝试前言最近小编主要在搞一些医学图像分割的工作，也跑了一下Swin-Unet,之前看到也看到过这篇Swin-Unet(其实五月份就看到了hhhh)，决定搬运过来。实际上从这篇论文可以看到目前医学分割或者检测引入transformer，更常见的做法还是直接嵌入到医学图像常用的网络结构中，比如Unet系列等，没有对transformer block做更多的创新，这主要是由于医学图像数据集太小导致对于transformer本身进行创新难以通

基于python+unet改进Shift-Transformer结构的图像语义分割项目+代码+项目说明书【改进系列、毕设项目】

05-13

模型特性上，UNet架构可根据任务需求灵活调整参数，包括输入尺寸、卷积通道数等，同时兼容不同类别数量的分割任务（通过--num_classes参数指定）。训练功能支持GPU加速，提供学习率、批次大小等超参数配置选项，可...

深度学习基于Shift-Transformer的UNet图像分割网络设计与实现：医学影像分析应用

05-13

内容概要：本文介绍了一种改进的U-Net模型，该模型结合了Shift-Transformer模块。具体来说，U-Net是一种常用于图像分割任务的卷积神经网络，其结构包括下采样路径（收缩路径）和上采样路径（扩展路径）。在下采样...

基于unet+Shift-Transformer改进+显微镜下红细胞图像分割（2类别）+数据集+代码+项目说明书

05-14

Pycharm（十九）深度学习

higerwy的博客

05-06

1393

深度学习是机器学习中的一种特殊方法，它使用称为神经网络的复杂结构，特别是“深层”的神经网络，来学习和做出预测。深度学习特别适合处理大规模和高维度的数据，如图像、声音和文本。深度学习、机器学习和人工智能之间的关系如下图所示：深度学习⊆机器学习⊆人工智能优点：1）精度高，性能优于其他的机器学习算法，甚至在某些领域超过了人类；2）随之计算机硬件的发展，可以近似任意的非线性函数；3）近年来在学界和业界受到了热捧，有大量的框架和库可供调。缺点：1）黑箱。

基于EMD-PCA-LSTM的光伏功率预测模型研究

专注AI大模型,软件混淆,授权

05-14

本文提出了一种结合经验模态分解(EMD)、主成分分析(PCA)和长短期记忆网络(LSTM)的混合模型，用于提高光伏功率预测的准确性。该模型首先利用EMD将非平稳的光伏功率序列分解为多个本征模态函数(IMF)，然后通过PCA对多维气象特征进行降维处理，最后将处理后的特征输入LSTM网络进行预测。实验结果表明，与单一LSTM模型和传统预测方法相比，EMD-PCA-LSTM模型在预测精度和稳定性方面均有显著提升。该模型有效处理了光伏功率序列的非平稳性和非线性，同时通过特征降维提高了模型效率，为光伏功率预测提供了一

人工智能-深度学习之循环神经网络

m0_51678367的博客

05-14

617

LSTM文本生成实战summary1、通过搭建LSTM模型，实现了基于文本序列的字符生成功能；2、学习了文本加载、字典生成方法；3、掌握了文本的数据预处理方法，并熟悉了转化数据的结构；4、实现了对新文本数据的字符预测。

使用深度学习预训练模型检测物体

最新发布

xinyu的记录博客

05-14

500

使用 GeoAI 工具和预训练模型自动检测棕榈树。

Python数据分析案例74——基于内容的深度学习推荐系统（电影推荐）

weixin_46277779的博客

05-10

1428

深度学习 自然语言处理(RNN) day_02

qq_59348412的博客

05-13

982

感知机由于结构简单，完成的功能十分有限。可以将若干个感知机连在一起，形成一个级联网络结构，这个结构称为“多层前馈神经网络”（Multi-layer Feedforward Neural Networks）。所谓“前馈”是指将前一层的输出作为后一层的输入的逻辑结构。每一层神经元仅与下一层的神经元全连接。但在同一层之内，神经元彼此不连接，而且跨层之间的神经元，彼此也不相连。循环神经网络（Recurrent Neural Network，RNN）是一种神经网络结构，专门用于处理序列数据。

The Deep Learning Compiler: A Comprehensive Survey (深度学习编译器：全面调查)

m0_58988991的博客

05-13

743

《深度学习编译器：全面调查》一文由Mingzhen Li等人撰写，发表于2021年3月1日的《IEEE Transactions on Parallel and Distributed Systems》。该文章系统性地回顾了深度学习编译器的发展现状，探讨了其在优化深度学习模型部署和性能提升中的关键作用。文章详细分析了现有深度学习编译器的架构、优化技术及其在不同硬件平台上的应用，并指出了当前面临的挑战和未来的研究方向。这项调查为研究人员和开发者提供了宝贵的参考，有助于推动深度学习编译器技术的进一步发展。

swin transformer 与Unet结合

02-05

### Swin Transformer 结合 UNet 的实现方法 #### 方法概述 Swin UNetR 是一种创新架构，它将经典的 U-Net 编码器-解码器结构与先进的 Swin Transformer 技术相结合。这种组合不仅继承了传统卷积神经网络的优点，还引入了自注意力机制来捕捉更广泛的特征表示。 #### 架构设计编码阶段采用多个堆叠的 Swin Transformer Block 来替代传统的 CNN 层次[^1]。这些 Blocks 能够有效地提取多尺度的空间信息并建立远距离像素间的关联关系。具体来说： ```python class SwinBlock(nn.Module): def __init__(self, dim, input_resolution, num_heads=8, window_size=7, shift_size=0): super().__init__() self.norm1 = nn.LayerNorm(dim) self.attn = WindowAttention( dim, window_size=(window_size, window_size), num_heads=num_heads, qkv_bias=True, attn_drop=0., proj_drop=0. ) def forward(self, x): shortcut = x x = self.norm1(x) x = self.attn(x) return shortcut + x ``` 在解码部分，则利用跨连接（skip connection）从对应的编码层传递高维语义特征给相应的解码单元，从而更好地保留细节信息[^2]。 #### 应用场景该混合模型特别适合于那些需要精确分割边界以及保持局部纹理的任务，比如医疗影像分析中的病灶检测、遥感图像分类等。此外，在自然场景下执行复杂的视觉识别工作也表现出色，例如自动驾驶车辆感知周围环境时所需的物体检测和实例分割任务。对于特定领域如低光条件下拍摄的照片增强、压缩失真修复或是老旧相片翻新等方面同样具有显著效果。