小徐xxx-CSDN博客

原创 nnunet（v1）的扩展

""""""说明继承获得基础训练功能（数据加载、验证、预测、日志、checkpoint 等）plans_file读取 nnU-Net 规划阶段生成的配置文件，包含网络结构、预处理参数等fold指定 5 折交叉验证中的当前折数（0–4），支持可复现的模型评估stage支持多阶段训练（如先训低分辨率再训全分辨率，适用于大图像）fp16启用混合精度训练，减少显存占用并加速训练默认训练 1000 轮，确保充分收敛（不依赖早停）使用较高的初始学习率配合 SGD + momentum，适合医学图像任务。

2026-03-28 12:00:48 366

原创 UNETR++代码讲解

这里对UNETR++的代码进行讲解与学习记录，以Synapse数据集为例。

2026-03-27 09:03:37 388

原创 Missformer讲解（附带代码讲解）

MISSFormer 的整体架构是一个典型的 U-Net 型编码器-解码器结构，但完全由 Transformer 模块构成。它通过“重叠块嵌入”和“块合并/扩展”实现特征的下采样与上采样，并在编码器与解码器之间引入了专门的“增强型上下文桥接模块”来处理全局上下文。

2026-02-14 08:16:59 612

原创学习率调度（Learning Rate Scheduling）策略

学习率调度（Learning Rate Scheduling）是指在模型训练过程中动态调整优化器的学习率，以，从而提升模型性能。固定学习率往往难以兼顾训练初期的快速下降和后期的精细收敛，而学习率调度策略通过在不同训练阶段智能地增减学习率，帮助模型更高效、更稳定地找到最优解。

2026-02-10 12:38:55 659

原创 ISIC2018数据集训练框架讲解

整体训练流程总览（按执行顺序）阶段调用位置 / 模块实现功能关键作用说明1. 初始化与参数解析argparse解析命令行参数，设置 GPU、路径、模型、数据等控制实验配置（如模型名、数据路径、五折验证 folder、损失类型等）2. 日志系统设置Logger类 +将所有print()输出同时写入控制台和日志文件自动记录训练过程，便于复现实验3. 数据集加载main()→加载 train / valid / test 三部分数据支持五折交叉验证（通过指定）4. 数据预处理。

2026-02-10 12:08:00 941

原创 ResNet介绍

ResNet（残差网络，Residual Network）是由何恺明、张祥雨、任少卿和孙剑等人于2015年提出的一种深度卷积神经网络架构，其核心创新是（或称跳跃连接，shortcut connection），通过引入恒等映射路径，使网络能够学习输入与输出之间的残差（即F(x)=H(x)+x，从而有效缓解了深度网络中的梯度消失和网络退化问题，使得训练上百层甚至上千层的神经网络成为可能。

2026-02-07 09:41:47 1199

原创目标检测介绍

目标检测是深度学习中的一项核心计算机视觉任务，旨在从图像或视频中识别并定位多个特定类别的物体。与图像分类仅判断整张图属于哪一类不同，目标检测不仅要确定“是什么”，还要指出“在哪里”——通常通过（bounding box）标出每个物体的位置，并为每个框分配一个和。主流的深度学习目标检测方法可分为两类：两阶段检测器（如 Faster R-CNN），先生成候选区域再分类；以及一阶段检测器（如 YOLO、SSD），直接在图像上同时预测位置和类别，速度更快。

2026-02-07 09:18:48 96

原创模型训练中的数值稳定性问题

梯度消失是指在深度神经网络训练过程中，时，由于多层激活函数导数与权重矩阵的连乘效应，导致底层（靠近输入端）参数的梯度值变得极小甚至趋近于零的现象。这种情况通常出现在使用Sigmoid、Tanh等饱和型激活函数的中，因为这些函数的导数最大值有限（如Sigmoid导数最大仅为0.25），在多层叠加后，梯度以指数速度衰减。结果是浅层参数几乎无法更新，模型学习停滞，难以有效训练深层结构。

2026-02-06 11:13:50 644

原创模型过拟合问题

模型过拟合是指在训练过程中，模型过度学习了训练数据中的细节和噪声，导致在训练集上表现非常好（如准确率很高、损失很低），但在未见过的测试数据或真实场景中、性能显著下降的现象。简言之，就是“死记硬背”训练数据，却不会举一反三。

2026-02-06 10:49:38 513

原创感知机（Perceptron）学习记录

感知机（Perceptron）是1957年由Frank Rosenblatt提出的一种最简单的线性二分类模型，也是人工神经网络的奠基性单元。它接收多个输入特征，通过加权求和后加上偏置，再经过一个阶跃激活函数（如符号函数）输出 +1 或 -1 （0）的类别标签。感知机采用误分类驱动的学习策略，仅当样本被错误分类时，才沿该样本方向更新权重。关键局限在于它只能处理线性可分问题；对于非线性可分数据（如异或问题），算法无法收敛。

2026-02-05 10:21:00 541

原创 Softmax回归（分类问题）学习记录

return self.linear(x) # 输出 logits，形状 [B, 10]这是一个没有隐藏层的线性分类器，即 Softmax 回归。view(x.size(0), -1)：将每张 28×28 的图像展平为 784 维向量。nn.Linear(784, 10)：学习一个权重矩阵W和偏置b，输出 logits。注：不加 Softmax，因为 CrossEntropyLoss 内部会处理，直接返回 logits 即可。

2026-02-05 09:44:21 945

原创线性回归学习记录

没有显示解时，使用梯度下降来。

2026-02-04 10:50:10 156

原创 Transunet代码讲解

博主是医学图像处理方向，初学阶段是在学习做分割任务，首先进行的是2d的一些CT切片，学长的建议是整理出代码的框架，在框架的基础上替换网络结构以及一些数据处理方式去跑不同的模型（虽然最后指标可能不同，但是目的是看这个方法的分割效果如何，也就是可以用一个优秀的框架作为基础，在它原有之上进行拓展），这样对于复现一个方法，掌握一个方法会减少极大的工作量，如果直接拿作者源码改，结果不一定好也不一定能改出来，工作成本大。

2025-12-22 20:05:52 857

原创 5 折交叉验证：让医学影像分割模型“既见树木也见森林”

K 折交叉验证（K-fold Cross-Validation）是一种被广泛运用于机器学习与医学图像分析领域的模型评估策略，其核心思想是把整个数据集“物尽其用”：在数据量有限的情况下，既能训练出足够复杂的模型，又能获得对泛化性能相对可信的估计。具体而言，算法会先把全部样本随机但均衡地划分成 K 份互斥子集（通常 K 取 5 或 10，称为“折”）。随后进行 K 轮迭代——每一轮都挑选其中作为临时，其余合并成当前轮的；

2025-12-12 17:14:23 537

原创 Mamba架构讲解

传统状态空间模型（SSM）为了避免存储庞大的隐状态，会固定参数（不随输入变化）并走高效计算路径，但这样缺乏内容推理能力；这个新模型给 SSM 加了 “选择机制”—— 让参数随输入动态变化，能根据当前内容选信息；同时通过硬件优化（只在 GPU 高速存储里处理隐状态），既解决了传统 SSM 的局限，又没牺牲效率，是 Mamba 的核心模块结构。引入选择机制的动机我们认为序列建模的核心问题是将上下文压缩到更小的状态中。事实上，我们可以从这一角度理解主流序列模型的权衡取舍。

2025-11-29 09:59:18 2474

原创 VM-UNET模型简介

VM-UNet（Vision Mamba UNet）是首个完全基于状态空间模型（State Space Model, SSM）的医学图像分割架构，标志着 Mamba 系列模型在医学影像领域的开创性应用。由上海交通大学研究团队于 2024 年提出。

2025-11-26 10:21:29 1210

原创医学图像分割三大代表性架构简介：CNN、Vision Transformer 与 Mamba

卷积神经网络（CNN）是医学图像分割领域最早被广泛采用、也是至今最为成熟和可靠的深度学习架构。自2015年 U-Net 模型提出以来，基于 CNN 的方法迅速成为该领域的黄金标准，并在大量临床任务中展现出卓越的性能，包括器官分割、肿瘤定位、血管提取等。Vision Transformer（ViT）最初为自然图像分类设计，但自2020年后迅速被引入医学图像分析领域，并催生了一系列专用于分割的架构。与传统卷积网络不同，ViT 完全摒弃了局部卷积操作，转而依赖自注意力机制对图像全局上下文进行建模。

2025-11-25 11:20:12 1828

原创 Zig-RiR（Zigzag RWKV-in-RWKV）代码跑通学习记录

论文以及全文翻译我已上传资源，下面是我的跑通代码的流程，以浪潮人工智能平台为例。

2025-11-23 11:24:12 769

原创 nnUNet（v1）框架的代码讲解

nnunet v1框架讲解

2025-11-07 11:05:41 1298

原创医学图像分割评价指标Dice与HD95的详解

豪斯多夫距离（Hausdorff Distance, HD）衡量两个点集之间的最大边界偏差。但在医学图像中，由于噪声或标注误差，最大距离容易受离群点影响，因此常用 95% 分位数的 HD（HD95）作为更鲁棒的替代。

2025-11-05 18:58:41 2839

原创 nnUNet（v1）框架使用全过程讲解

nnUNet作为医学图像分割的框架去使用十分的方便，所以可以简单地学习了解一下它的代码。这里只讲部分重要代码以及使用。注：介绍的是nnunetv1版本，因为作者的条件限制，目前只能使用v1版本，虽然比较古老且代码条理不够清晰，但也够用，还请见谅。关于nnunet的介绍以及简单使用可以看博主的这两个文章：https://blog.csdn.net/qq_73038863/article/details/152608999?fromshare=blogdetail&sharetype=blogd

2025-11-04 09:36:07 1580

原创 nnUNet框架使用教程

我所学习的文章中提到创建一个名为Task01_BrainTumour的文件夹（解释：这个Task01_BrainTumour是nnUNet的作者参加的一个十项全能竞赛的子任务名，也是我要实践的分割任务，类似的还有Task02_Heart，就是分割心脏的。（4）进入上面第二个文件夹nnUNet_raw，创建nnUNet_cropped_data文件夹和nnUNet_raw_data文件夹，右边存放原始数据，左边存放crop以后的数据。（6）将下载好的公开数据集或者自己的数据集放在上面创建好的任务文件夹下。

2025-10-29 17:20:07 988

原创 ACDC数据集介绍

ACDC（Automatic Cardiac Diagnosis Challenge）数据集是2017年MICCAI会议期间发布的一个公开心脏MRI数据集，旨在推动自动心脏结构分割与疾病诊断算法的发展。该数据集包含100例真实临床患者的心脏电影磁共振成像（cine MRI），涵盖五类心脏状况：正常对照、扩张型心肌病、肥厚型心肌病、心肌梗死后和右心室异常。

2025-10-23 18:02:17 909

原创 VMNET介绍

VMNet（Voxel-Mesh Network）是一种用于 3D 语义分割的深度学习架构，首次发表于 ICCV 2021。其核心目标是兼顾3D场景的语义信息与几何细节，通过融合体素（Voxel）和网格（Mesh）两种表示形式，实现更精确的分割效果。VMNet 的创新在于首次将体素域和网格域统一在一个端到端可训练的框架中，并设计了跨域注意力机制进行信息交互。优势：结构规则，易于使用3D卷积处理，语义上下文建模能力强。缺陷：体素化会丢失几何细节，尤其在物体边界和细小结构上表现不佳。

2025-10-22 08:45:11 1179

原创 UNTER++模型简介

UNTER++ 是一种基于深度学习的自然语言处理（NLP）模型，专注于文本生成、摘要和对话系统任务。其核心架构结合了Transformer的变体，通过多任务学习优化生成质量与效率。

2025-10-21 20:02:58 308

原创 nnformer模型讲解

nnFormer（nnU-Net-based Transformer）是一种将 Transformer 架构与 nnU-Net 框架相结合的医学图像分割模型。它在继承 nnU-Net 自动化、鲁棒性强等优点的基础上，引入了 Transformer 的全局建模能力，以克服传统 CNN（如 U-Net）在长距离依赖建模方面的局限性。

2025-10-21 18:05:25 765

原创 UNETR模型讲解

UNETR（UNEt TRansformer）是一种基于Transformer架构的医学图像分割模型，结合了U-Net的编码器-解码器结构和Transformer的全局建模能力。它通过替换U-Net的卷积编码器为纯Transformer模块，直接从3D图像块序列中提取多尺度特征，同时保留U-Net的解码器进行渐进式上采样和定位。🟢 绿色立方体：3D 转置卷积，上采样 ×2🔵 蓝色立方体：完整上采样+融合单元🟡 黄色立方体：普通卷积层🔵+🟢 组合表示一个“上采样 + 卷积融合”模块🔵（带 c）

2025-10-21 13:02:12 1450

原创 Zig-RiR（Zigzag RWKV-in-RWKV）模型讲解

Zig-RiR（Zigzag RWKV-in-RWKV）是一种专为高效医学图像分割设计的新型神经网络架构，由 Chen 等人在 2025 年提出。它基于 RWKV（Receptance Weighted Key Value）模型——一种具有线性计算复杂度、能高效建模长序列的类 Transformer 架构——并针对医学图像的特性进行了关键性改进。注：关于RWKV的讲解请看博主的这篇文章：https://blog.csdn.net/qq_73038863/article/details/153137485

2025-10-13 21:46:49 1302

Mamba的论文资源pdf

VM-UNET论文pdf

Zig-RiR（Zigzag RWKV-in-RWKV）论文

Zig-RiR（Zigzag RWKV-in-RWKV）论文

空空如也