- 博客(47)
- 收藏
- 关注
原创 nnunet(v1)的扩展
""""""说明继承获得基础训练功能(数据加载、验证、预测、日志、checkpoint 等)plans_file读取 nnU-Net 规划阶段生成的配置文件,包含网络结构、预处理参数等fold指定 5 折交叉验证中的当前折数(0–4),支持可复现的模型评估stage支持多阶段训练(如先训低分辨率再训全分辨率,适用于大图像)fp16启用混合精度训练,减少显存占用并加速训练默认训练 1000 轮,确保充分收敛(不依赖早停)使用较高的初始学习率配合 SGD + momentum,适合医学图像任务。
2026-03-28 12:00:48
366
原创 Missformer讲解(附带代码讲解)
MISSFormer 的整体架构是一个典型的 U-Net 型编码器-解码器结构,但完全由 Transformer 模块构成。它通过“重叠块嵌入”和“块合并/扩展”实现特征的下采样与上采样,并在编码器与解码器之间引入了专门的“增强型上下文桥接模块”来处理全局上下文。
2026-02-14 08:16:59
611
原创 学习率调度(Learning Rate Scheduling)策略
学习率调度(Learning Rate Scheduling)是指在模型训练过程中动态调整优化器的学习率,以,从而提升模型性能。固定学习率往往难以兼顾训练初期的快速下降和后期的精细收敛,而学习率调度策略通过在不同训练阶段智能地增减学习率,帮助模型更高效、更稳定地找到最优解。
2026-02-10 12:38:55
655
原创 ISIC2018数据集训练框架讲解
整体训练流程总览(按执行顺序)阶段调用位置 / 模块实现功能关键作用说明1. 初始化与参数解析argparse解析命令行参数,设置 GPU、路径、模型、数据等控制实验配置(如模型名、数据路径、五折验证 folder、损失类型等)2. 日志系统设置Logger类 +将所有print()输出同时写入控制台和日志文件自动记录训练过程,便于复现实验3. 数据集加载main()→加载 train / valid / test 三部分数据支持五折交叉验证(通过指定)4. 数据预处理。
2026-02-10 12:08:00
935
原创 ResNet介绍
ResNet(残差网络,Residual Network)是由何恺明、张祥雨、任少卿和孙剑等人于2015年提出的一种深度卷积神经网络架构,其核心创新是(或称跳跃连接,shortcut connection),通过引入恒等映射路径,使网络能够学习输入与输出之间的残差(即F(x)=H(x)+x,从而有效缓解了深度网络中的梯度消失和网络退化问题,使得训练上百层甚至上千层的神经网络成为可能。
2026-02-07 09:41:47
1199
原创 目标检测介绍
目标检测是深度学习中的一项核心计算机视觉任务,旨在从图像或视频中识别并定位多个特定类别的物体。与图像分类仅判断整张图属于哪一类不同,目标检测不仅要确定“是什么”,还要指出“在哪里”——通常通过(bounding box)标出每个物体的位置,并为每个框分配一个和。主流的深度学习目标检测方法可分为两类:两阶段检测器(如 Faster R-CNN),先生成候选区域再分类;以及一阶段检测器(如 YOLO、SSD),直接在图像上同时预测位置和类别,速度更快。
2026-02-07 09:18:48
96
原创 模型训练中的数值稳定性问题
梯度消失是指在深度神经网络训练过程中,时,由于多层激活函数导数与权重矩阵的连乘效应,导致底层(靠近输入端)参数的梯度值变得极小甚至趋近于零的现象。这种情况通常出现在使用Sigmoid、Tanh等饱和型激活函数的中,因为这些函数的导数最大值有限(如Sigmoid导数最大仅为0.25),在多层叠加后,梯度以指数速度衰减。结果是浅层参数几乎无法更新,模型学习停滞,难以有效训练深层结构。
2026-02-06 11:13:50
644
原创 模型过拟合问题
模型过拟合是指在训练过程中,模型过度学习了训练数据中的细节和噪声,导致在训练集上表现非常好(如准确率很高、损失很低),但在未见过的测试数据或真实场景中、性能显著下降的现象。简言之,就是“死记硬背”训练数据,却不会举一反三。
2026-02-06 10:49:38
513
原创 感知机(Perceptron)学习记录
感知机(Perceptron)是1957年由Frank Rosenblatt提出的一种最简单的线性二分类模型,也是人工神经网络的奠基性单元。它接收多个输入特征,通过加权求和后加上偏置,再经过一个阶跃激活函数(如符号函数)输出 +1 或 -1 (0)的类别标签。感知机采用误分类驱动的学习策略,仅当样本被错误分类时,才沿该样本方向更新权重。关键局限在于它只能处理线性可分问题;对于非线性可分数据(如异或问题),算法无法收敛。
2026-02-05 10:21:00
540
原创 Softmax回归(分类问题)学习记录
return self.linear(x) # 输出 logits,形状 [B, 10]这是一个没有隐藏层的线性分类器,即 Softmax 回归。view(x.size(0), -1):将每张 28×28 的图像展平为 784 维向量。nn.Linear(784, 10):学习一个权重矩阵W和偏置b,输出 logits。注:不加 Softmax,因为 CrossEntropyLoss 内部会处理,直接返回 logits 即可。
2026-02-05 09:44:21
944
原创 Transunet代码讲解
博主是医学图像处理方向,初学阶段是在学习做分割任务,首先进行的是2d的一些CT切片,学长的建议是整理出代码的框架,在框架的基础上替换网络结构以及一些数据处理方式去跑不同的模型(虽然最后指标可能不同,但是目的是看这个方法的分割效果如何,也就是可以用一个优秀的框架作为基础,在它原有之上进行拓展),这样对于复现一个方法,掌握一个方法会减少极大的工作量,如果直接拿作者源码改,结果不一定好也不一定能改出来,工作成本大。
2025-12-22 20:05:52
855
原创 5 折交叉验证:让医学影像分割模型“既见树木也见森林”
K 折交叉验证(K-fold Cross-Validation)是一种被广泛运用于机器学习与医学图像分析领域的模型评估策略,其核心思想是把整个数据集“物尽其用”:在数据量有限的情况下,既能训练出足够复杂的模型,又能获得对泛化性能相对可信的估计。具体而言,算法会先把全部样本随机但均衡地划分成 K 份互斥子集(通常 K 取 5 或 10,称为“折”)。随后进行 K 轮迭代——每一轮都挑选其中作为临时,其余合并成当前轮的;
2025-12-12 17:14:23
537
原创 Mamba架构讲解
传统状态空间模型(SSM)为了避免存储庞大的隐状态,会固定参数(不随输入变化)并走高效计算路径,但这样缺乏内容推理能力;这个新模型给 SSM 加了 “选择机制”—— 让参数随输入动态变化,能根据当前内容选信息;同时通过硬件优化(只在 GPU 高速存储里处理隐状态),既解决了传统 SSM 的局限,又没牺牲效率,是 Mamba 的核心模块结构。引入选择机制的动机我们认为序列建模的核心问题是将上下文压缩到更小的状态中。事实上,我们可以从这一角度理解主流序列模型的权衡取舍。
2025-11-29 09:59:18
2467
原创 VM-UNET模型简介
VM-UNet(Vision Mamba UNet)是首个完全基于状态空间模型(State Space Model, SSM)的医学图像分割架构,标志着 Mamba 系列模型在医学影像领域的开创性应用。由上海交通大学研究团队于 2024 年提出。
2025-11-26 10:21:29
1208
原创 医学图像分割三大代表性架构简介:CNN、Vision Transformer 与 Mamba
卷积神经网络(CNN)是医学图像分割领域最早被广泛采用、也是至今最为成熟和可靠的深度学习架构。自2015年 U-Net 模型提出以来,基于 CNN 的方法迅速成为该领域的黄金标准,并在大量临床任务中展现出卓越的性能,包括器官分割、肿瘤定位、血管提取等。Vision Transformer(ViT)最初为自然图像分类设计,但自2020年后迅速被引入医学图像分析领域,并催生了一系列专用于分割的架构。与传统卷积网络不同,ViT 完全摒弃了局部卷积操作,转而依赖自注意力机制对图像全局上下文进行建模。
2025-11-25 11:20:12
1823
原创 Zig-RiR(Zigzag RWKV-in-RWKV)代码跑通学习记录
论文以及全文翻译我已上传资源,下面是我的跑通代码的流程,以浪潮人工智能平台为例。
2025-11-23 11:24:12
768
原创 医学图像分割评价指标Dice与HD95的详解
豪斯多夫距离(Hausdorff Distance, HD)衡量两个点集之间的最大边界偏差。但在医学图像中,由于噪声或标注误差,最大距离容易受离群点影响,因此常用 95% 分位数的 HD(HD95)作为更鲁棒的替代。
2025-11-05 18:58:41
2817
原创 nnUNet(v1)框架使用全过程讲解
nnUNet作为医学图像分割的框架去使用十分的方便,所以可以简单地学习了解一下它的代码。这里只讲部分重要代码以及使用。注:介绍的是nnunetv1版本,因为作者的条件限制,目前只能使用v1版本,虽然比较古老且代码条理不够清晰,但也够用,还请见谅。 关于nnunet的介绍以及简单使用可以看博主的这两个文章:https://blog.csdn.net/qq_73038863/article/details/152608999?fromshare=blogdetail&sharetype=blogd
2025-11-04 09:36:07
1573
原创 nnUNet框架使用教程
我所学习的文章中提到创建一个名为Task01_BrainTumour的文件夹(解释:这个Task01_BrainTumour是nnUNet的作者参加的一个十项全能竞赛的子任务名,也是我要实践的分割任务,类似的还有Task02_Heart,就是分割心脏的。(4)进入上面第二个文件夹nnUNet_raw,创建nnUNet_cropped_data文件夹和nnUNet_raw_data文件夹,右边存放原始数据,左边存放crop以后的数据。(6)将下载好的公开数据集或者自己的数据集放在上面创建好的任务文件夹下。
2025-10-29 17:20:07
987
原创 ACDC数据集介绍
ACDC(Automatic Cardiac Diagnosis Challenge)数据集是2017年MICCAI会议期间发布的一个公开心脏MRI数据集,旨在推动自动心脏结构分割与疾病诊断算法的发展。该数据集包含100例真实临床患者的心脏电影磁共振成像(cine MRI),涵盖五类心脏状况:正常对照、扩张型心肌病、肥厚型心肌病、心肌梗死后和右心室异常。
2025-10-23 18:02:17
902
原创 VMNET介绍
VMNet(Voxel-Mesh Network)是一种用于 3D 语义分割 的深度学习架构,首次发表于 ICCV 2021。其核心目标是兼顾3D场景的语义信息与几何细节,通过融合体素(Voxel)和网格(Mesh)两种表示形式,实现更精确的分割效果。VMNet 的创新在于首次将体素域和网格域统一在一个端到端可训练的框架中,并设计了跨域注意力机制进行信息交互。优势:结构规则,易于使用3D卷积处理,语义上下文建模能力强。缺陷:体素化会丢失几何细节,尤其在物体边界和细小结构上表现不佳。
2025-10-22 08:45:11
1179
原创 UNTER++模型简介
UNTER++ 是一种基于深度学习的自然语言处理(NLP)模型,专注于文本生成、摘要和对话系统任务。其核心架构结合了Transformer的变体,通过多任务学习优化生成质量与效率。
2025-10-21 20:02:58
307
原创 nnformer模型讲解
nnFormer(nnU-Net-based Transformer)是一种将 Transformer 架构与 nnU-Net 框架相结合的医学图像分割模型。它在继承 nnU-Net 自动化、鲁棒性强等优点的基础上,引入了 Transformer 的全局建模能力,以克服传统 CNN(如 U-Net)在长距离依赖建模方面的局限性。
2025-10-21 18:05:25
762
原创 UNETR模型讲解
UNETR(UNEt TRansformer)是一种基于Transformer架构的医学图像分割模型,结合了U-Net的编码器-解码器结构和Transformer的全局建模能力。它通过替换U-Net的卷积编码器为纯Transformer模块,直接从3D图像块序列中提取多尺度特征,同时保留U-Net的解码器进行渐进式上采样和定位。🟢 绿色立方体:3D 转置卷积,上采样 ×2🔵 蓝色立方体:完整上采样+融合单元🟡 黄色立方体:普通卷积层🔵+🟢 组合表示一个“上采样 + 卷积融合”模块🔵(带 c)
2025-10-21 13:02:12
1447
原创 Zig-RiR(Zigzag RWKV-in-RWKV)模型讲解
Zig-RiR(Zigzag RWKV-in-RWKV)是一种专为高效医学图像分割设计的新型神经网络架构,由 Chen 等人在 2025 年提出。它基于 RWKV(Receptance Weighted Key Value) 模型——一种具有线性计算复杂度、能高效建模长序列的类 Transformer 架构——并针对医学图像的特性进行了关键性改进。注:关于RWKV的讲解请看博主的这篇文章:https://blog.csdn.net/qq_73038863/article/details/153137485
2025-10-13 21:46:49
1302
原创 TNT(Transformer in Transformer)讲解
TNT(Transformer in Transformer)是一种改进的视觉Transformer架构,通过嵌套的Transformer结构增强模型对局部和全局特征的建模能力。其核心思想是在全局Transformer块中嵌入局部Transformer块,形成层次化特征提取机制,提升图像分类、目标检测等任务的性能。嵌套Transformer结构:外层Transformer:处理图像块(Patches)之间的全局关系,类似传统ViT(Vision Transformer)。
2025-10-13 11:57:55
1210
2
原创 RWKV架构讲解
RWKV(Receptance Weighted Key-Value)是一种结合了RNN(循环神经网络)和Transformer架构优势的模型。其核心设计通过替代传统Transformer的二次复杂度注意力,显著降低计算资源消耗,同时保持长序列建模能力。RWKV支持并行训练与高效推理,适用于资源受限场景下的长文本处理任务。
2025-10-12 22:49:06
1293
原创 Swin-Unet讲解
因为最终目标通道是 C/2 = 192,而每个新位置有 4 个子 token,所以总维度 = 4 × 192 = 768。
2025-10-10 12:14:27
1976
原创 AtentionUnet介绍
AttentionUnet 是一种基于经典 U-Net 架构改进的医学图像分割模型,通过引入注意力机制(Attention Gate, AG)来增强模型对目标区域的聚焦能力,抑制无关背景信息的干扰。其主要改进集中在跳跃连接(Skip Connection)部分,通过注意力门控动态调整特征图的权重,提升分割精度。
2025-10-10 11:30:01
678
原创 医学影像分割常用数据集
BTCV = “Beyond the Cranial Vault” – 2015 MICCAI 多图谱腹部标记挑战赛官方命名。Synapse = 数据托管平台(Sage Bionetworks),社区常把 BTCV 称为 “Synapse 数据集”。BTCV(Beyond the Cranial Vault)即 Synapse 腹部多器官 CT 分割数据集,由 Vanderbilt 门脉期 30 例增强 CT 组成,官方固定 18 训练 / 12 测试,提供 8 (
2025-10-08 21:44:05
2679
原创 nnU-Net介绍
nnU-Net 是德国癌症研究中心推出的“自调参”医学分割框架:它沿用经典 U-Net 结构,却能根据任意 CT/MR 数据自动算出网络形态、预处理、训练与后处理超参,零代码即可复现甚至超越论文 SOTA,被业内视为“无脑出 baseline 的神器”。 nnU-Net 的“网络骨架”仍然是 U-Net(encoder-decoder + skip-connection),但它并不是原样复制经典 U-Net,而是在结构、训练、推理全流程做了大量自动化微调。
2025-10-06 19:51:30
1540
原创 剪枝的概念,与Dropout的区别
剪枝是一种模型压缩技术,通过移除神经网络中冗余或不重要的连接、神经元或整个层,减少模型大小和计算量。其核心思想是识别并删除对模型性能影响较小的参数,同时尽量保持模型精度。
2025-09-29 20:15:08
1004
4
原创 TransUnet的讲解
TransUnet是一种结合了Transformer和U-Net结构的混合网络架构,旨在解决医学图像分割任务中的长距离依赖问题。传统U-Net在局部特征提取上表现优异,但是在全局上下文建模方面存在局限。TransUnet 通过将 Transformer 引入 U-Net 的编码器部分,使得模型既能保留 CNN 的局部特征提取能力,又能利用 Transformer 的全局建模能力,从而提升分割精度,它能够更好地处理图像中的小目标和复杂结构,减少了对大量标注数据的依赖。
2025-09-26 20:01:38
1025
原创 Transformer的讲解
Transformer是一种基于自注意力机制(Self-Attention)的深度学习模型,最初由Vaswani等人于2017年提出。其核心优势在于并行化处理能力和对长距离依赖关系的有效建模,广泛应用于自然语言处理(NLP)、计算机视觉(CV)和多模态任务。Transformer的整体架构:左侧为 Encoder block,右侧为 Decoder block。
2025-09-26 11:26:17
1252
原创 GroupNorm(组归一化)
GroupNorm(Group Normalization)是一种用于深度学习的归一化技术,旨在解BatchNorm(BN)在 batch size 较小时性能急剧下降的问题,同时能很好地替代 InstanceNorm(IN)和 LayerNorm(LN)。GroupNorm将通道分成若干组,对每组内的特征进行归一化,不依赖批量大小,适用于小批量或无法使用批量归一化的场景。
2025-09-25 18:32:19
922
原创 Unet网络DRIVE数据集实战
DRIVE数据集的全称为(用于血管提取的数字视网膜图像)。该数据集是视网膜图像分析领域的基准数据集,主要用于视网膜血管分割算法的开发和评估。包含40张彩色眼底照片(其中20张用于训练,20张用于测试),每张图像均配有专家手动标注的血管分割结果和视盘掩模。
2025-09-24 21:43:25
1542
原创 BCE(二元交叉熵)与Dice
二元交叉熵(Binary Cross-Entropy, BCE)是深度学习中用于二分类任务的损失函数,衡量模型预测概率与真实标签之间的差异。适用于输出为概率值(如Sigmoid激活后的结果)的场景,例如图像分类中的正/负样本判断。PyTorch提供了BCELoss和BCEWithLogitsLoss两种实现方式。(1)语义分割二分类:血管、视网膜、皮肤病变、道路、缺陷检测等几乎默认先上 BCE(+Dice)。
2025-09-23 21:15:58
1393
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅