自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Henry的博客

佛系学习,正常摆烂

  • 博客(524)
  • 收藏
  • 关注

原创 改进系列(14):基于Swin Transformer的SAM交互式图像分割方法研究:腹部13器官分割

本文提出了一种基于Swin Transformer架构的交互式图像分割方法,通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构,在编码阶段利用Swin Transformer的层次化特征提取能力,在解码阶段结合跳跃连接恢复空间细节。实验结果表明,该方法在标准数据集上取得了较高的分割精度,同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。关键词:交互式图像分割;深度学习;点提示;医学图像分析。

2025-06-19 16:54:34 1167 2

原创 改进系列(1):TransUnet结合SAM box改进对MICCAI FLARE腹部13器官图像分割

本章尝试将TransUnet和SAM结合,以期望达到更换的模型TransUnet作为医学图像分割的基准,在许多数据集上均取得了很好的效果,然而最近SAM大模型的兴起,图像分割似乎有了新的方向关于图像分割项目、sam模型复现参考本人其他专栏,这里之作简单介绍TransUnet是一个专门为医学图像分割任务设计的深度学习模型。它是一种卷积神经网络(CNN),采用基于变压器的架构。TransUnet在具有相应分割掩模的大型医学图像数据集上进行训练,以学习如何从输入图像中准确分割器官、病变或其他结构。

2024-10-12 16:12:44 1798 2

原创 Unet 实战分割项目、多尺度训练、多类别分割

之前写了篇二值图像分割的项目,支持多尺度训练,网络采用backbone为vgg的unet网络。本章实现的unet网络的多类别分割,也就是分割可以是两个类别,也可以是多个类别。训练过程仍然采用多尺度训练,即网络会随机将图片缩放到设定尺寸的0.5-1.5倍之间。

2024-02-05 21:38:35 8662 21

原创 第一节:基于 Swin Transformer 与 MLCA 注意力机制的图像分类系统

本文提出了一种基于SwinTransformer和多级通道注意力机制(MLCA)的图像分类系统。该系统采用SwinTransformer作为骨干网络,结合MLCA模块通过池化融合增强通道特征表达能力。支持完整的训练流程,包括数据预处理(随机裁剪、翻转等)、Adam优化器和交叉熵损失函数。系统提供全面的评估指标(准确率、F1分数等)和可视化功能,自动保存最佳模型并生成训练曲线。采用模块化设计,便于扩展应用。实验设置包括批量大小16、学习率0.0001等参数,适用于多类别图像分类任务,兼具学术研究和实际应用价值

2025-12-23 14:24:39 836

原创 Python实现井字棋游戏:从零开始构建AI对战和双人对战模式

本文介绍了一个使用Python和Pygame库开发的井字棋游戏,包含AI对战和双人对战两种模式。文章详细讲解了游戏开发的完整流程,包括游戏初始化、界面设计、逻辑实现和AI算法。游戏采用现代化UI设计,具有智能AI对手(采用经典策略算法)、流畅的用户交互体验和完整的游戏管理功能。项目亮点包括:优先获胜的AI策略、动态视觉效果、分数统计系统等。文中还提供了扩展建议,如添加难度级别、音效和网络对战功能。通过这个项目,读者可以学习游戏开发基础、算法设计和Python编程实践。完整代码已包含,可作为学习游戏开发的优秀

2025-12-22 02:45:46 475

原创 机器学习算法:随机梯度下降算法

摘要: 动量法(Momentum)通过引入“惯性”机制改进梯度下降,解决传统SGD在优化过程中的振荡和收敛慢问题。其核心思想是结合历史梯度与当前梯度进行加权更新,使参数在一致梯度方向上加速,在变化频繁方向上抑制波动。数学上,动量法通过累积速度变量(如指数移动平均)实现平滑更新。实验对比显示,动量法在参数空间中的路径更直接,损失下降更快,尤其适用于高维非凸优化或噪声数据场景。改进版NAG进一步通过“前瞻性”梯度计算提升收敛性。动量法的优势包括加速训练、稳定优化路径,但需调整超参数(如动量系数β)。代码示例验证

2025-12-16 18:28:30 938

原创 线性回归模型:理论与应用研究

本文研究了线性回归模型的理论基础与实际应用。首先阐述了线性回归的基本原理和最小二乘法参数估计过程,推导出模型参数的解析解。然后通过Python实现了一个完整的房价预测案例,使用合成数据构建模型并进行评估。实验结果显示模型能有效捕捉房价与面积的关系,验证了线性回归的实用价值。研究涵盖了从理论推导到代码实现的全流程,为线性回归的应用提供了参考范例。

2025-12-09 08:38:22 305

原创 Lasso回归算法详解与应用

回归算法是预测数值型结果的机器学习方法,通过建立自变量与因变量关系模型进行预测。Lasso回归是一种改进的线性回归技术,通过L1正则化防止过拟合并实现特征选择,将不重要特征系数压缩为零。其目标函数包含残差平方和与系数绝对值惩罚项,参数λ控制惩罚力度。Lasso回归适用于高维数据挖掘和需要模型解释性的场景,但存在共线性问题和系数偏差等缺点。文中通过房价预测案例和股票价格分析代码展示了Lasso回归的实际应用,包括特征选择、模型训练和预测评估过程。

2025-12-01 12:00:51 1178

原创 深入解析带SE注意力机制的UNet:架构、实现与实验

本文详细解析了结合SE注意力机制的UNet模型架构。首先介绍了UNet的编码器-解码器结构和SE注意力机制的工作原理,重点阐述了SE模块通过全局平均池化和全连接层实现特征通道重校准的方法。随后详细讲解了模型实现,包括DoubleConv模块的双卷积设计、下采样和上采样模块的实现细节,以及如何将SE模块灵活嵌入各层。该模型在保持UNet原有优势的同时,通过轻量级的SE模块增强了特征表达能力,特别适用于医学图像分割等需要精细特征提取的任务。

2025-12-01 11:46:52 156

原创 基于改进TransUNet的港口船只图像分割系统研究

本文提出了一种改进的TransUNet架构用于港口船只图像分割,通过引入空间注意力机制(SA)和特征金字塔注意力模块,有效提升了复杂场景下的分割精度。系统采用模块化设计,包含数据预处理、改进网络架构、训练框架和图形化界面。创新点包括:1) SA模块增强关键区域关注;2) 特征金字塔实现多尺度融合;3) 改进的Dice+交叉熵损失函数。实验表明该系统在准确性、鲁棒性和实用性方面表现优异,为港口智能化管理提供了高效解决方案。

2025-11-07 18:38:50 811

原创 基于区域生长算法的图像分割方法设计与实现(附代码)

本文实现了一个基于区域生长的Python图像分割系统,采用8邻域生长策略,支持交互式和自动种子点选择。系统通过设定生长阈值和最小区域大小等参数,能够有效分割出与种子点灰度相似的连续区域。实验表明该方法在目标与背景对比明显的场景下表现良好,但存在对噪声敏感和参数依赖性强等局限性。未来可结合边缘检测、自适应阈值等技术进一步提升分割性能。该系统为图像分析任务提供了简单有效的分割工具。

2025-10-30 18:53:07 78

原创 分类算法-逻辑回归

本文系统介绍了逻辑回归算法的原理与应用。首先阐述了分类算法的基本概念,指出逻辑回归虽名为回归实为分类模型,其核心是通过Sigmoid函数将线性组合转换为概率值(0-1区间),并以0.5为阈值进行二分类决策。通过垃圾邮件识别案例,详细演示了特征处理、概率计算和分类决策的全过程。深入剖析了模型假设函数、对数损失函数和梯度下降优化等数学原理,将工作流程概括为模型假设、损失构建、梯度计算和参数更新四个步骤。最后分析了逻辑回归简单高效、可解释性强等优点,以及线性限制、异常值敏感等不足,并给出了客户流失预测的完整实现案

2025-10-10 14:51:21 1187

原创 基于深度残差U-Net与多尺度注意力机制的医学图像分割系统

本文提出了一种创新的医学图像分割系统,通过融合残差连接、通道注意力机制和空间金字塔池化技术,构建了高性能的UResnet分割网络。系统采用编码器-解码器架构,创新性地引入多层次特征增强模块,显著提升了医学图像中复杂组织结构的分割精度。实验结果表明,该方案在多个医学图像数据集上均取得了优异性能,边界分割精度提升15%,训练收敛速度提升30%,同时减少20%计算量。系统为临床诊断提供了可靠的技术支持,未来可扩展至3D医学图像分割和联邦学习等方向。

2025-10-09 08:30:11 648

原创 基于U-Net与Attention U-Net的医学图像分割系统详解

本文介绍了一个基于PyTorch的医学图像分割系统,支持U-Net和AttentionU-Net两种网络,适用于多类别语义分割任务。项目包含完整的数据预处理、模型训练、评估和预测功能,特别针对CT扫描等医学图像优化,提供数据增强、窗口化处理等功能。系统采用模块化设计,包含数据集处理、模型定义、训练流程、评估指标和可视化工具,并支持多种分割指标计算。项目可扩展性强,可用于医学影像、遥感和工业质检等领域,未来可集成更多模型和功能。

2025-09-26 09:25:29 1167

原创 SwinTransformer特征提取融合convNeXt创新改进

本文介绍了一个基于深度学习的图像分类系统,该系统创新性地融合了SwinTransformer和ConvNeXt架构,并结合CBAM注意力机制与多尺度特征融合技术。系统实现了完整的训练-验证-测试流程,采用FocalLoss解决类别不平衡问题,支持多种优化器和学习率策略。通过数据增强和混合架构设计,在验证集上取得了99.5%的准确率。系统提供丰富的可视化功能(损失曲线、混淆矩阵、ROC曲线等)和用户友好的图形界面,支持图像加载和实时分类,为非专业用户提供了便捷的操作体验。

2025-09-12 14:32:04 1080

原创 Unet创新改进:基于点提示的交互式图像分割系统设计与实现

摘要:本文提出了一种基于点提示的交互式图像分割系统,采用改进的U-Net架构,通过用户提供的正负样本点实现精确分割。系统包含完整的训练、验证和交互推理流程,支持多类别分割。创新性地引入点提示通道,将用户交互信息(正负样本点)与图像特征结合输入网络。实验结果显示,该系统在mIoU(0.8543)和Dice系数(0.8912)等指标上表现优异,具有快速响应和高质量分割的特点。系统采用Tkinter构建GUI界面,支持用户通过点击交互实时获取分割结果,为医学图像、自动驾驶等领域的精细分割任务提供了有效解决方案。

2025-09-12 08:57:27 1150

原创 UNet 改进:添加EfficientViMBlock

本文提出了一种改进的UNet架构,通过集成高效的EfficientViMBlock模块,将CNN的局部特征提取能力与Transformer的全局建模优势相结合。该架构包含标准UNet组件(DoubleConv、Down、Up、OutConv)和创新设计的EfficientViMBlock,后者采用深度可分离卷积和多头自注意力机制的混合结构,并引入可学习的层缩放参数优化分支融合。实验表明,这种灵活可配置的混合架构在保持UNet原有优势的同时,显著提升了特征提取效率,特别适用于医学图像分割、遥感分析等需要精确像

2025-08-10 06:24:29 325

原创 分类算法:支持向量机

支持向量机(SVM)是一种强大的机器学习分类算法,它通过寻找最优决策边界来实现分类,具有出色的泛化能力。SVM的核心思想是最大化间隔,确保决策边界远离两侧数据点,提高模型鲁棒性。它特别适合小样本、高维数据分类,如文本分类和生物医学数据分析。虽然计算成本较高,但SVM在处理非线性问题和抗过拟合方面表现优异。通过核函数如RBF,SVM能有效处理复杂边界问题。完整案例展示了SVM在非线性数据集上的应用,包括模型训练、评估和可视化决策边界的过程。

2025-08-10 06:10:22 971

原创 VGG 改进:融合CNN与Transformer的VGG模型

本文提出了一种结合VGG16 CNN和Vision Transformer的混合架构。该模型在传统VGG16的卷积层之间插入Transformer模块,包含三个核心组件:1) Transformer编码器层实现自注意力机制;2) Vision Transformer模块处理图像块序列;3) 主模型集成CNN和Transformer的优势。该架构既能提取局部特征,又能建模全局关系,通过可学习的位置编码和残差连接实现高效特征融合。实验表明,这种混合设计在保持CNN优势的同时,增强了模型的全局建模能力,为计算机视

2025-07-27 11:06:30 227

原创 SwinTransformer 改进:稀疏化注意力机制(Sparse Attention)

本文提出了一种改进的稀疏注意力机制(SparseAttention),通过保留top-k注意力权重显著降低了Transformer模型的计算复杂度。该方法针对SwinTransformer架构实现,包含三个关键技术:1) 稀疏注意力层仅计算和保留top-k权重,减少计算量;2) 相对位置编码保持位置感知能力;3) 自动替换机制可将原始注意力层全部替换为稀疏版本。实验表明,该方法在保持模型性能的同时提升了计算效率,特别适用于高分辨率图像处理等场景。代码实现了完整的稀疏注意力模块和模型替换流程,为Transfo

2025-07-24 15:38:08 493

原创 梯度下降法详解:优化算法的核心与实现

本文系统介绍了机器学习中的核心优化算法——梯度下降法。该方法通过沿目标函数梯度反方向迭代调整参数,寻找最优解。文章详细解析了其工作原理(如盲人下山类比)、数学推导(以二次函数为例)和实现步骤,并讨论了学习率等关键参数的影响。通过Python代码实例展示了该方法在3D数据拟合中的应用,直观呈现了损失函数动态变化和参数优化过程。梯度下降法因其通用性强、计算高效等特点,成为深度学习等领域的基石算法。

2025-07-24 12:55:17 821

原创 甲状腺结节TI-RADS分类的多目标分类头任务深度学习模型评估报告

本研究开发了一个基于ResNet50的多任务深度学习模型,用于甲状腺结节的TI-RADS分类。模型同时预测成分、回声、形状、边缘和强回声灶五个关键特征,并计算最终TI-RADS等级。在192例超声图像数据集上的评估显示:1)模型在TI-RADS等级预测总体准确率达58%,各特征预测准确率95%-99%;2)当假设成分和强回声灶预测正确时,总分差异在±1分内的准确率达95%。该研究为甲状腺结节的标准化评估提供了有效工具,具有临床应用价值。完整代码可通过CSDN下载获取。

2025-07-18 12:13:58 365

原创 具身智能与人形机器人:技术革命重塑未来

        2025年,具身智能(Embodied AI)首次被写入,标志着这一技术正式成为国家战略级未来产业的核心方向。具身智能的核心在于赋予人工智能“物理身体”,使其通过多模态感知、实时决策和环境交互,实现从虚拟智能向实体智能的跨越。        作为具身智能的理想载体,人形机器人正在全球范围内迎来爆发式落地——从工厂车间到救援现场,从马拉松赛道到家庭客厅,一场“碳硅共生”的文明图景正加速展开。

2025-07-06 14:33:17 2446

原创 SwinTransformer 改进:小波+注意力模块(Wavelet-Guided Attention)

本文提出了一种结合Swin Transformer和小波引导注意力模块(WGAM)的创新模型架构。WGAM通过Haar小波分解将特征图分为四个子带(LL,LH,HL,HH),并分别应用通道注意力和空间注意力机制,同时为各子带分配可学习权重。该模块被集成到Swin Transformer的patch embedding层之后,在不显著增加计算复杂度的情况下,实现了多尺度特征提取和自适应特征增强。实验表明,这种混合架构特别适合高分辨率图像分类、医学图像分析和遥感图像处理等任务。模型采用模块化设计,可灵活集成到其

2025-06-21 10:24:37 555

原创 基于EfficientNet的手势识别计算器系统设计与实现

本文提出了一种基于EfficientNet的手势识别计算器系统,通过深度学习技术实现了1-9手势数字的准确识别和基本算术运算。系统采用EfficientNet-B0网络架构,经过迁移学习和微调训练,在测试集上达到99%的识别准确率。PyQt5构建的图形界面支持用户上传手势图片并执行加减乘除运算,结果实时显示。研究表明该系统具有识别精度高、交互自然、操作简便等特点,在教育、辅助计算等领域具有应用价值,但仍存在仅支持静态手势识别等局限性。

2025-06-21 08:26:34 241

原创 UNet 改进:结合CAM注意力与DLKA注意力的改进UNet

本文提出一种改进的UNet网络架构,通过引入通道注意力模块(CAM)和动态大核注意力模块(DLKA)显著提升特征提取能力。该网络采用经典的编码器-解码器结构,核心创新点包括:1)Triplet_DoubleConv模块整合常规卷积、CAM和DLKA;2)CAM模块通过双路径池化学习通道重要性;3)DLKA模块使用7×7深度可分离卷积捕获大范围空间关系。网络特别适用于医学图像分割等精细任务,在保持UNet优势的同时增强了对长距离依赖和重要特征的捕捉能力。完整PyTorch实现展示了模块化设计,便于迁移应用。

2025-06-19 16:43:15 626

原创 EfficientNet 改进:StripCGLU模块的创新与应用

本文提出了一种改进的EfficientNet-b0模型,核心创新是通过引入StripCGLU模块来提升网络性能。StripCGLU结合了水平/垂直条带卷积和GLU激活机制,具有参数效率高、计算量少的优点。改进策略包括选择性替换部分MBConv为StripCGLU模块(每隔3个块插入),同时保留早期层结构。测试表明该模型适用于移动端视觉任务,在保持效率的同时提升性能。代码实现包含模块定义、模型构建及测试部分,展示了如何通过精心设计的模块改进现有网络架构。

2025-06-17 17:42:50 127

原创 SwinTransformer 改进:结合DLKA与SSPP的模型架构

本文提出了一种创新的计算机视觉模型架构,结合Swin Transformer、动态大核注意力(DLKA)和空间金字塔池化(SSPP)模块。该设计融合了Transformer的全局建模能力与CNN的局部特征提取优势,其中DLKA模块通过通道和空间注意力增强局部特征提取,SSPP模块实现多尺度特征融合。模型在Swin Transformer基础上插入这两个模块,形成兼顾全局-局部特征表达和多尺度处理的混合架构。实验验证表明,该模型适用于需要同时关注细粒度细节和全局上下文的视觉任务,为计算机视觉模型设计提供了新的

2025-06-17 13:27:09 277

原创 ShuffleNet 改进:与通道注意力机制(CAM)的结合实现

本文提出了一种改进的ShuffleNetV2模型,通过集成通道注意力机制(CAM)增强特征表示能力。CAM模块采用双分支结构(平均池化+最大池化)学习通道权重,并使用带压缩比的MLP减少参数量。模型保留了ShuffleNetV2的轻量特性,支持预训练权重加载,通过维度转换技巧将CAM无缝集成到网络中。实验验证表明,该方法在保持高效性的同时提升了模型性能,为轻量级网络设计提供了有效参考。代码开源,可直接应用于图像分类等任务。

2025-06-09 16:20:40 225

原创 改进系列(13):基于改进U-ResNet的脊椎医学图像分割系统设计与实现

本文提出一种改进的U-ResNet医学图像分割系统,通过融合残差连接、通道注意力机制和空间金字塔池化模块,显著提升分割精度。系统采用端到端深度学习框架,实现数据预处理、模型训练到可视化分析全流程自动化。实验表明,该方法平均DSC达0.92以上,优于传统分割网络,并提供友好GUI界面支持交互式操作。改进的网络架构包含多级残差块编码器、多尺度瓶颈层和带注意力机制的解码器,配合联合损失函数优化,有效解决医学图像分割中的特征提取不足和小目标分割难题。系统还实现了六种评估指标计算和多种可视化分析功能。

2025-06-09 13:42:51 908

原创 MobileNet 改进:基于MobileNetV2和SSPP的图像分类

本文介绍了一种结合MobileNetV2和空间金字塔池化(SSPP)的轻量级图像分类模型。该模型采用MobileNetV2作为特征提取器,并集成了自定义SSPP模块,通过多尺度池化增强特征表达能力。模型结构包含特征提取、SSPP处理和线性分类三个部分,其中SSPP支持可配置的池化层级(默认1×1,2×2,4×4)。这种设计既保持了MobileNetV2的高效特性,又提升了模型对不同尺寸特征的适应能力。测试代码验证了模型可处理224×224输入并输出正确维度的分类结果。该实现为计算机视觉任务提供了一种平衡性能

2025-06-06 09:10:32 264

原创 ResUNet 改进:融合DLKA注意力机制

本报告详细分析了一个名为UResnet的深度学习网络架构,该网络结合了U-Net的编码器-解码器结构、ResNet的残差连接以及新型的Dilated Large Kernel Attention(DLKA)注意力机制。该网络设计用于图像分割任务,通过多尺度特征提取和融合实现精确的像素级预测。

2025-06-05 14:29:39 168

原创 CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】

本文记录了在CentOS系统上配置DHCP服务的完整流程:首先确保NAT模式联网,修改yum镜像源后安装DHCP服务;然后配置虚拟机网络为vmnet10(虚拟交换机模式),设置CentOS静态IP时需特别注意格式规范;接着编辑dhcpd.conf文件定义IP地址池(192.168.10.200-210)、网关和DNS;最后启动DHCP服务并设置防火墙规则。成功搭建后,Windows客户端切换为自动获取IP即可完成网络配置,通过/var/lib/dhcpd/dhcpd.leases文件可查看租约信息。全程重点

2025-06-04 18:19:32 1414 1

原创 基于深度学习(Unet和SwinUnet)的医学图像分割系统设计与实现:超声心脏分割

本文提出了一种基于深度学习的医学图像分割系统,采用U-Net和Swin-Unet两种网络架构,实现了高效的医学图像分割。系统包含完整的数据预处理、模型训练评估流程,并提供用户友好的图形界面。实验结果表明,该系统在CT等医学图像分割任务中表现优异,Swin-Unet架构性能优于传统U-Net,窗宽窗位调整显著改善CT图像分割效果。系统具有模块化设计、易扩展等特点,为临床诊断提供了有效的计算机辅助工具。

2025-06-04 09:56:29 499

原创 基于人工智能算法实现的AI五子棋博弈

本项目开发了一个基于Python和Pygame的五子棋游戏系统,包含三种对战模式:人人对战、人机对战和AI对战。系统采用模块化设计,包括棋盘管理、AI决策和主程序三大模块。AI算法基于博弈树搜索和评估函数,实现了棋型识别、Alpha-Beta剪枝、迭代加深搜索等优化技术,能够提供较强对战能力。系统支持自定义游戏模式和AI参数,具有清晰的用户界面和交互设计。未来可进一步优化算法性能并扩展功能,如增加难度选择、网络对战等。项目代码结构合理,便于后续开发和改进。

2025-06-03 15:26:16 1718

原创 NLP实战(5):基于LSTM的电影评论情感分析模型研究

本研究提出了一种基于双向LSTM的深度学习模型,用于电影评论的细粒度情感分类(5分类)。模型采用词嵌入层(100维)、双向LSTM层(2层256维)和全连接层结构,在标准数据集上通过5折交叉验证评估,平均准确率达到55.52%。实验结果显示模型能够有效区分负面、中性到正面的情感表达,其中中性情感与"有点积极/负面"的区分存在改进空间。研究提供了完整的数据预处理流程、模型架构和训练策略,代码已实现模块化,便于复现。未来可结合预训练词向量和注意力机制进一步提升性能。

2025-06-03 13:27:38 1409

原创 U-ResNet 改进:集成CoordinateAttention(坐标注意力)

本文介绍了一种名为UResNet的混合神经网络结构,它结合了ResNet的残差连接、UNet的编码-解码架构以及坐标注意力机制。该网络通过BasicBlock/BottleNeck构建块实现特征提取,采用VGGBlock进行卷积处理,并引入CoordinateAttention模块增强位置感知。在编码阶段逐层下采样,解码阶段通过上采样和跳跃连接恢复分辨率,最终输出分割结果。代码实现展示了完整的网络架构和数据处理流程,测试结果表明该模型能有效处理224×224的输入图像。这种创新组合利用了不同网络的优点,为图

2025-06-02 11:12:45 259

原创 U-ResNet 改进:集成特征金字塔网络(FPN)

本文介绍了UResNet模型的设计与实现,该模型融合了U-Net的编码器-解码器结构、ResNet的残差连接以及特征金字塔网络(FPN)的多尺度特征提取能力。模型包含Up模块、BasicBlock、BottleNeck、VGGBlock和FPN等核心组件,通过编码器下采样、解码器上采样与特征融合,最终输出分割结果。测试表明模型能正确处理256×256输入并输出对应尺寸的分割图。UResNet兼具U-Net的信息保留能力、ResNet的梯度缓解特性以及FPN的多尺度优势,为图像分割任务提供了灵活高效的解决方案

2025-06-02 10:18:00 617

原创 DeepSeek:不同模式(v3、R1)如何选择?

三种模型对比:基础版为默认选项;V3在开放性和规范性文本生成任务中表现优于R1,但使用R1时不宜提供示例(其自主性强)。官方提供PromptLibrary提示语库,V3和R1各有专用提示语模板,例如可将DeepSeek转化为智能体的定制提示方案(150字)

2025-05-29 15:29:02 711

原创 改进系列(12):基于SAM交互式点提示的UNet腹部多脏器分割方法研究

本文提出了一种基于点提示机制的交互式UNet网络用于腹部多脏器医学图像分割。该方法在传统UNet基础上扩展输入通道,加入点提示信息,允许用户在推理阶段通过点击前景和背景区域提供交互指导。实验采用394例腹部CT图像训练,98例验证,最终在验证集上达到Dice系数0.9358和IoU 0.8805的优异性能。与全自动方法相比,该交互式分割方案更具灵活性,能有效修正边界模糊区域的分割错误,为临床医学图像分析提供了实用解决方案。

2025-05-27 10:02:06 843

基于Transformer实现的创新改进SK注意力机制图像分类项目,无人机拍摄的海滩废弃物图像,代码介绍

基于SK注意力机制的ViT图像分类系统,无人机拍摄的海滩废弃物图像,项目说明书 这套代码实现了一个融合SK(Selective Kernel)注意力机制的ViT(Vision Transformer)图像分类系统,通过创新的模型架构和完整的训练流程,为计算机视觉任务提供了高效精准的解决方案。系统核心采用ViT-B/16作为基础模型,在其分类头前插入自主研发的SKModule注意力模块,该模块通过多分支特征融合和动态权重分配机制(M=2个分支,压缩比r=16),显著提升了模型对多尺度特征的捕捉能力。实验表明,这种改进使模型在ImageNet等基准数据集上准确率提升3-5%,尤其擅长处理复杂背景下的细粒度分类任务。 系统采用工业级的数据处理流程,支持JPEG/PNG等多种图像格式,通过智能数据增强策略(包括随机裁剪、水平翻转和色彩抖动)有效提升模型泛化能力。训练模块实现了多维度指标监控体系,不仅跟踪常规的准确率和损失值,还创新性地引入特异度(Specificity)等医学影像分析常用指标,通过混淆矩阵动态计算各类别的真阴性率,为模型评估提供更全面的视角。独特的训练曲线可视化系统能同时展示6项关键指标(损失、准确率、精确率、召回率、特异度、F1分数)的实时变化,帮助开发者快速诊断模型性能瓶颈。 该框架具有三大技术亮点:首先,采用混合精度训练和CUDA加速,在单卡GPU上即可实现每秒120+图像的吞吐量;其次,创新的模型保存机制会自动保留验证集表现最佳的参数版本,并生成包含30+评估指标的详细报告;最后,模块化设计使系统能快速适配ResNet、EfficientNet等其他骨干网络。特别适合医疗影像分析、工业质检等需要高精度分类的场景,在测试中其对肺炎X光片的分类F1分数达到0.92,远超传统CNN方法。整套代码已优化为即插即用结构,只需修改配置文件即可应用于新的数据集

2025-12-17

计算机视觉数据:空中垃圾检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

计算机视觉数据:空中垃圾检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数1700,val数据总数170。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别5: { "0": "glass", "1": "plastic_bottle_takeaway_cup", "2": "retort_pouch", "3": "take_away_container", "4": "tin_aluminium_cans" }

2025-12-17

矿区货车语义分割、语义分割数据集(约1000张数据和标签,已处理完可以直接训练,多类别图像分割)

矿区货车语义分割、语义分割数据集(约1000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 货车 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,700张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,300张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-17

计算机视觉数据:热门街头美食分类、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

计算机视觉数据:热门街头美食分类、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数2500,val数据总数1100。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别20: Tacos Pizza Slice Burger Hot Dog Shawarma Falafel Currywurst Fish and Chips Pani Puri Bánh Mì Arepas Churros Pretzel Empanadas Kebab (Shish Kebab) Pad Thai Gelato Crepes Poutine Samosas

2025-12-17

采用 YOLOv11-OBB 格式的 DroneVehicle 数据集: 小型车辆和大型车辆 识别+5k张数据和标签

采用 YOLOv11-OBB 格式的 DroneVehicle 数据集: 小型车辆和大型车辆 识别+5k张数据和标签

2025-12-17

resnet有效改进,ExternalAttention注意力模块,OPENCV项目+说明文档+热门食物识别

【Resnet改进系列】基于resnet+ExternalAttention改进的图像分类项目+说明文档+热门食物识别 本项目是一个基于PyTorch框架的深度学习图像分类系统。 采用卷积神经网络(CNN)实现完整的训练与评估流程。系统核心功能包括数据预处理、模型训练、性能评估和可视化分析,适用于多样化的图像分类任务。项目文件结构清晰,主要由train.py(主训练脚本)、data_utils.py(数据处理模块)和train_utils.py(训练评估工具)组成,支持命令行参数配置如数据路径、批次大小和学习率等。 数据预处理阶段通过ImageDataset类实现标准化操作:训练集采用随机裁剪、水平翻转和颜色增强等动态增强策略,验证集仅进行基础调整和归一化,均统一至224×224分辨率。训练流程支持GPU加速,自动记录损失值、准确率、精确率、召回率、特异度和F1分数六类指标,并在每轮训练后生成验证集评估报告。系统会动态保存最佳模型权重(.pth文件)至checkpoints目录,同时输出训练曲线图(含6项指标对比)和详细日志文件,便于监控过拟合/欠拟合现象。 用户可通过模块化设计灵活扩展功能:修改CNNModel类调整网络结构,自定义get_data_transforms()的数据增强策略,或增减calculate_metrics()的评估指标。项目要求数据集按类别分目录存放,依赖PyTorch、NumPy等基础库,建议合理设置batch_size以避免内存溢出。该系统整合了从数据加载到模型部署的全流程工具,兼具标准化流程与高度可定制性,为图像分类任务提供高效解决方案。

2025-12-17

基于YOLOV5【更换backbone为Swin-Transformer】对道路异常目标检测数据集的目标检测实战项目

基于YOLOV5【更换backbone为Swin-Transformer】对【道路异常】目标检测数据集的目标检测实战项目,包含代码、数据集,经测试,代码可以直接使用 【数据集介绍】道路异常图像数据,8类别:longitudinal crack - 0 longitudinal crack wide - 1 transverse crack - 2 transverse crack wide - 3 alligator crack - 4 alligator crack sunken - 5 pothole - 6 pothole deep - 7 训练集datasets-images-train:1900张图片和1900个标签txt文件组成 测试集datasets-images-val:480张图片和480个标签txt文件组成 【yolov5】项目总大小:166MB 项目迭代了100个epoch,在runs目录下保存了训练结果,训练最好的精度map0.5=0.84,map0.5:0.95=0.42。训练过程中会生成验证集的混淆矩阵,PR曲线、F1曲线等等runs/detect目录下保存了网络推理训练集的全部结果,推理效果很好 更多yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html

2025-12-16

UNet+mobilenet实战改进项目+CV+X光牙齿语义分割+项目说明书+数据集

【unet改进实战】基于unet+深度可分离卷积mobilenet改进实现的【X光牙齿】图像语义分割+项目说明书+数据集 项目概述 本项目基于PyTorch框架构建了一个通用图像分割系统,全面支持二分类及多类别分割任务。 系统功能 该系统提供从数据预处理到模型训练、验证评估的全流程解决方案,具备高度可配置性和实用性: 数据处理:支持自定义图像和掩码文件格式(如.jpg、.png等),自动处理不连续标签值,集成多种数据增强技术提升模型泛化能力 模型架构:基于UNet实现,可通过参数灵活调整输入尺寸、卷积通道数等,兼容不同类别数量的分割任务(通过--num_classes参数指定) 训练功能:支持GPU加速,提供学习率、批次大小等超参数配置选项,实时记录损失曲线和评估指标(如IoU、Dice系数),自动保存最优模型权重 使用流程 按规范组织数据集(图像与掩码文件需名称对应,分别存放在images/masks子目录) 通过命令行参数启动训练,可指定: 数据路径(--data_dir) 学习率(--learning_rate) 标签映射规则(--label_mapping)等 系统输出包含: 模型权重文件(.pth) 训练曲线可视化图表 指标日志文件 注意事项 掩码图像应为单通道灰度图,标签值为整数 多分类任务推荐使用one-hot编码掩码 项目依赖主流科学计算库(PyTorch、NumPy)及可视化工具(Matplotlib),安装简便 应用领域 该系统适用于医学影像、遥感等领域的语义分割任务,兼顾易用性与扩展性。用户可通过调整UNet深度或添加注意力机制等方式进一步优化性能。 【项目说明书】包含完整代码实现与原理讲解:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-12-16

道路损坏检测、图像目标检测数据【已标注,约2400张数据和标签,YOLO 标注格式】

道路损坏检测、图像目标检测数据【已标注,约2400张数据和标签,YOLO 标注格式】 类别个数【8】:longitudinal crack - 0 longitudinal crack wide - 1 transverse crack - 2 transverse crack wide - 3 alligator crack - 4 alligator crack sunken - 5 pothole - 6 pothole deep - 7【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-16

牙齿分割、语义分割数据集(约2000张数据和标签,已处理完可以直接训练,多类别图像分割)

牙齿分割、语义分割数据集(约2000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255牙齿 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1400张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,600张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-16

YOLOV5 改进实战项目【更换骨干网络为shufflenet】对马路垃圾检测,包含代码、数据集 经测试,代码可以直接使用

YOLOV5 改进实战项目【更换骨干网络为shufflenet】对马路垃圾检测,包含代码、数据集。经测试,代码可以直接使用。 【yolov5】项目总大小:220 MB 本项目更换了yolov5骨干网络为官方实现的shufflenet网络,曾经在水果数据集上,简单训练了100个epoch,map指标为0.96,map0.5:0.95=0.92。 【如何训练】和yolov5一样的训练方法,摆放好datasets数据,然后更改yaml文件中的类别信息即可训练 【数据集】(数据分为分为训练集和验证集) 训练集datasets-images-train:4200张图片和4200个标签txt文件组成 验证集datasets-images-val:1700张图片和1700个标签txt文件组成 更多yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html

2025-12-16

垃圾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】

垃圾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】 类别个数【18】:Aluminium foil Bottle cap Bottle Broken glass Can Carton Cigarette Cup Lid Other litter Other plastic Paper Plastic bag - wrapper Plastic container Pop tab Straw Styrofoam piece Unlabeled litter 【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-16

TransUnet 改进:在Transformer块中加入CBAM模块的实现的皮肤病图像分割、语义分割

TransUnet 改进:在Transformer块中加入CBAM模块的实现的皮肤病图像分割、语义分割 数据集采用【皮肤病图像分割】,数据在data目录下,划分了训练集和验证集。代码可直接运行 【改进部分】代码在TransUnet的Transformer中加入了CBAM模块。如果想要更换别的模块,只需要将CBAM替换即可 网络介绍:摆放好数据集,直接更改train脚本的参数即可,默认的epoch是100,学习率采用cos余弦退火算法,初始值0.01,衰减到0.00001。如果想在大尺度进行训练,修改img-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等,代码会对训练和验证集进行评估,结果保存runs下的json文件中。 网络推理的时候,会自动将inference/img下所有图像进行推理,并且保存在infer_get、show下,前者是推理gt阈值图像,后者是img+推理gt的掩膜效果 更多改进项目参本人【改进专栏】https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-15

皮肤病分割、图像分割数据集(约1200张数据和标签,已处理完可以直接训练,多类别图像分割)

皮肤病分割、图像分割数据集(约1200张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 1 皮肤病 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,900张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,380张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-15

盲道、障碍物识别、图像分割数据集(约3500张数据和标签,已处理完可以直接训练,多类别图像分割)

盲道、障碍物识别、图像分割数据集(约3500张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 1 盲道 2 障碍物 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,230张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,80张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-15

家庭火灾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】

家庭火灾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】 类别个数【1】fire【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-15

计算机视觉数据:废弃物识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

计算机视觉数据:废弃物识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数9200,val数据总数3900。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别9: { "0": "Construction_Waste", "1": "Electronic_Waste", "2": "Glass_Waste", "3": "Medical_Waste", "4": "Metal_Waste", "5": "Organic_Waste", "6": "Paper_Cardboard_Waste", "7": "Plastic_Waste", "8": "Textile_Rubber_Waste" }

2025-12-15

基于Swin-Transformer改进CBAM模块+多尺度特征融合+Focal loss分类项目:废弃物识别

基于Swin-Transformer改进CBAM模块+多尺度特征融合+Focal loss分类项目:废弃物识别 【项目简介】 代码主干网络采用Swin-Transformer +CBAM+多尺度特征融合改进网络。pretrained参数为是否采用官方预训练模型。为了做对比消融试验,优化器采用了Adam和SGD、AdamW三种。损失函数采用Focal loss、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。同时生成验证集的ROC、PR曲线,样本数量柱状图等。如果有测试集的话,会自动进行测试 【QT推理】直接运行qt脚本即可 分类改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-15

面向医学图像的交互式分割工具:PyTorch实现Unet和swinUnet分割项目:工业钢材缺陷检测

面向医学图像的交互式分割工具:PyTorch实现Unet和swinUnet分割项目:工业钢材缺陷检测 本项目集合实现了一个基于PyTorch的图像分割系统,包含数据加载、模型训练、评估和可视化功能,支持CT图像对比度增强及多类别分割任务。 【数据加载与预处理】 系统通过MyDataset类实现数据加载,支持自定义图像/掩膜路径、文件格式及基础尺寸调整。数据增强包括随机水平/垂直翻转,并提供CT图像的窗口化对比度增强选项。标签图像被二值化处理,多类别分割任务可通过grayList.txt文件定义类别灰度值。测试阶段可可视化原始图像与分割结果,支持保存预测图。 【模型训练与评估 】 训练流程包含数据集划分、数据加载器配置及学习率调度。采用交叉熵损失函数和AdamW优化器,结合余弦退火策略动态调整学习率。训练过程中实时计算并记录损失、IoU、Dice系数等指标,通过混淆矩阵评估模型性能。每轮训练后自动保存最优权重,并生成训练日志与可视化曲线(损失、IoU、精度等)。模型架构支持UNet和SwinUnet两种选择,参数量和FLOPs通过thop库计算。 【系统集成与交互界面 】 通过PyQt5构建图形界面,用户可选择图片并查看分割结果。界面集成颜色映射功能,将预测类别转换为RGB颜色显示。系统支持批量处理与结果保存,但当前版本未完全集成训练模块,需通过命令行参数配置训练参数(如--model、--epochs等)。训练脚本自动创建目录结构,保存模型权重、日志及可视化结果。 参考:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-12-10

钢材表面缺陷检测、图像分割数据集(约3500张数据和标签,已处理完可以直接训练,多类别图像分割)

钢材表面缺陷检测、图像分割数据集(约3500张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 缺陷 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,2500张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1000张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-10

城市马路上骑行者检测【已标注,约3200张数据和标签,YOLO 标注格式】

城市马路上骑行者检测【已标注,约3200张数据和标签,YOLO 标注格式】 类别个数【1】骑行者【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-26

果树梨子检测【已标注,约1300张数据和标签,YOLO 标注格式】

果树梨子检测【已标注,约1300张数据和标签,YOLO 标注格式】 类别个数【1】pear【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-25

YOLOV5 改进【更换骨干网络为GhostNet】:梨子数据集检测

YOLOV5 改进【更换骨干网络为GhostNet】:梨子数据集检测 【如何训练】和yolov5一样的训练方法,摆放好datasets数据,然后更改yaml文件中的类别信息即可训练 【数据集】(数据分为分为训练集和验证集) 训练集:1100左右张图片和对应的标签txt文件组成 验证集:260左右张图片和对应的标签txt文件组成 更多yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html

2025-12-25

基于TransUnet和Swin-Unet 实现的医学图像语义分割对比项目:视盘视杯分割

基于TransUnet和Swin-Unet 实现的医学图像语义分割对比项目:视盘视杯分割 数据集采用【视盘视杯分割】,数据在data目录下,划分了训练集和验证集。【代码可一键运行】 【介绍】分割网络为TransUnet和Swin-Unet (可以自行选择),学习率采用cos余弦退火算法。如果想在大尺度进行训练,修改base-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等,代码会对训练和验证集进行评估,结果保存runs下的json文件中。 网络推理的时候采用可视化推理,运行infer脚本会打开本地网页,上传图片即可进行推理 更多医学图像语义分割实战:https://blog.csdn.net/qq_44886601/category_12816068.html 图像分类、语义分割网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-12-24

视盘视杯图像语义分割数据集(约1600张数据和标签,已处理完可以直接训练,多类别图像分割)

视盘视杯图像语义分割数据集(约1600张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息, 0 - 视杯 128 - 视盘 255 - 背景 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1200张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,480张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-24

基于 MobileNetV3轻量级网络实现的自适应迁移学习图像识别实战:遥感土地图像分类项目,一键运行

基于 MobileNetV3轻量级网络实现的自适应迁移学习图像识别实战:遥感土地图像分类项目,一键运行 该项目是一个基于MobileNet V3模型的图像分类系统,旨在通过深度学习技术实现高效的图像分类任务。系统主要由三个模块组成:模型训练、推理预测和工具函数。首先,train.py脚本负责模型的训练过程,用户可以通过命令行参数设置模型类型、优化器、学习率、批量大小等超参数。训练过程中,脚本会自动进行数据预处理、模型初始化、训练与验证循环,并保存最佳模型权重和训练日志。训练结束后,系统会生成损失曲线、准确率曲线、混淆矩阵、recall、F1、precision、ROC曲线和AUC值等可化结果,帮助用户评估模型性能。 其次,infer.py脚本用于推理预测,可以通过Streamlit提供的Web界面上传图像,系统会调用训练好的模型进行图像分类,并返回预测结果及其置信度。 关于AI改进参考:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-12-24

深度学习数据集:农村景观监测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

深度学习数据集:农村景观监测【包括划分好的数据、字典文件、可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数5000,val数据总数2100。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别6: Cropland Forest Water Body Built-up Area Grassland Barren Land

2025-12-24

YOLOV5+vgg16(小目标检测效果好)改进项目:交通标志牌目标检测数据集(12类别)

YOLOV5+vgg16(小目标检测效果好)改进项目:交通标志牌目标检测数据集(12类别) 包含代码、数据集、训练好的权重参数,经测试,代码可以直接使用。 因为vgg代码,8倍下采样丰富,适合检测小目标 【yolov5】项目总大小:255MB 本项目更换了yolov5骨干网络为官方实现的VGG16网络,这里仅仅训练了100个epoch,网络还没收敛,加大轮次可以获取更高的网络性能 【如何训练】和yolov5一样的训练方法,摆放好datasets数据,然后更改yaml文件中的类别信息即可训练 更多yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html

2025-12-24

大型交通标志检测、图像目标检测数据【已标注,约7000张数据和标签,YOLO 标注格式】

交通标志检测、图像目标检测数据【已标注,约7000张数据和标签,YOLO 标注格式】 类别个数【12】红绿灯等【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-24

基于Unet融合SAM模型point提示推理遥感图像分割项目:皮肤病疾病分割

基于Unet融合SAM模型point提示推理遥感图像分割项目:皮肤病疾病分割 代码将SAM的point提示和Unet融合改进,评估指标采用dice、iou,recall、precision等,以及相应的曲线。 推理的脚本是【infer.py】,运行会生成UI界面,鼠标点击可以选择提示的前景/背景。代码会自动推理,显示掩膜图像 更多unet改进参考https://blog.csdn.net/qq_44886601/category_12858320.html【持续更新】 创新点介绍:实现了一个基于UNet的交互式图像分割系统,其核心亮点在于:1)创新性地将用户交互点作为第四通道与RGB图像拼接输入网络,实现点引导的精准分割;2)采用完整的训练-评估-应用闭环,支持余弦退火学习率调度和全面的分割指标评估(mIoU/Dice等);3)设计了友好的GUI界面,用户只需点击前景/背景点即可实时获得可视化结果;4) 系统具有高度可扩展性,UNet架构支持自定义通道数和特征图尺寸,数据加载器内置多种增强策略,既能保证训练效果又能适应不同尺寸的输入图像。

2025-12-23

皮肤病灶图像语义分割、语义分割数据集(约5000张数据和标签,已处理完可以直接训练,多类别图像分割)

皮肤病灶图像语义分割、语义分割数据集(约5000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255皮肤病 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,3600张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1500张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-23

SwinTransformer改进 + MLCA注意力机制+项目说明书 + 停车场检测+计算机视觉项目

基于SwinTransformer+MLCA注意力机制改进的完整项目实战【包含项目说明书】+ 代码 + 停车场检测 本项目是一个基于PyTorch框架的深度学习图像分类系统,采用卷积神经网络(CNN)实现完整的训练与评估流程。系统核心功能包括数据预处理、模型训练、性能评估和可视化分析,适用于多样化的图像分类任务。项目文件结构清晰,主要由train.py(主训练脚本)、data_utils.py(数据处理模块)和train_utils.py(训练评估工具)组成,支持命令行参数配置如数据路径、批次大小和学习率等。 数据预处理阶段通过ImageDataset类实现标准化操作:训练集采用随机裁剪、水平翻转和颜色增强等动态增强策略,验证集仅进行基础调整和归一化,均统一至224×224分辨率。训练流程支持GPU加速,自动记录损失值、准确率、精确率、召回率、特异度和F1分数六类指标,并在每轮训练后生成验证集评估报告。系统会动态保存最佳模型权重(.pth文件)至checkpoints目录,同时输出训练曲线图(含6项指标对比)和详细日志文件,便于监控过拟合/欠拟合现象。 用户可通过模块化设计灵活扩展功能:修改CNNModel类调整网络结构,自定义get_data_transforms()的数据增强策略,或增减calculate_metrics()的评估指标。项目要求数据集按类别分目录存放,依赖PyTorch、NumPy等基础库,建议合理设置batch_size以避免内存溢出。该系统整合了从数据加载到模型部署的全流程工具,兼具标准化流程与高度可定制性,为图像分类任务提供高效解决方案。

2025-12-23

计算机视觉数据:网球运动员动作识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

计算机视觉数据:网球运动员动作识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数1400,val数据总数600。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别4: { "0": "backhand", "1": "forehand", "2": "ready_position", "3": "serve" }

2025-12-23

网球运动员动作识别+目标检测+json标签

backhand shot (backhand) forehand shot (forehand) ready position (ready_position) serve (serve)

2025-12-23

计算机视觉数据:停车场空置和占用空间检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

计算机视觉数据:停车场空置和占用空间检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数4800,val数据总数900。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别2: { "0": "busy", "1": "free" }

2025-12-23

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战:运动员动作图像分类

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战:运动员动作图像分类 【项目简介】 代码主干网络采用DenseNet家族系列,包括densenet121,161,169,201模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层,只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验,优化器采用了Adam和SGD两种,如果需要增加其他的,可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。 【如果想要更换数据集训练,参考readme文件】 【本项目为运动员动作图像分类(约5k张数据),包含数据集和标签,可以一键运行】

2025-12-23

基于SwinUnet融合SAM point创新改进完整语义分割项目:卫星建筑屋顶图像语义分割(包含完整数据集和代码)

基于SwinUnet融合SAM point创新改进完整语义分割项目:卫星建筑屋顶图像语义分割(包含完整数据集和代码) 核心创新在于将**点提示学习机制与Swin UNet相结合**,实现了**用户引导的智能分割范式**。该系统在架构设计、训练策略和交互方式上均实现了重大突破,具体体现在以下几个层面: **首先,在模型架构上进行了根本性创新。** 系统摒弃了传统的卷积神经网络,采用基于Swin Transformer的U型编解码器作为主干网络。Swin Transformer通过引入**移位窗口自注意力机制**,在保持全局建模能力的同时大幅降低了计算复杂度,能够有效捕获多尺度语义信息。更为关键的是,模型创新地将**点提示作为第四输入通道**,将用户交互信息以空间热图的形式与原始RGB图像拼接,形成4通道输入。这种设计使得网络能够同时处理视觉特征和用户意图,实现了端到端的交互式学习。 **其次,在训练策略上实现了智能化革新。** 数据集加载器(`dataset.py`)采用**动态点采样机制**,在每轮训练中随机从真实掩码的前景区域采样点作为正样本提示,当缺乏前景时则采样背景点作为负样本提示。这种**课程学习策略**使模型能够学习如何响应各种点提示情况,极大增强了模型的鲁棒性和泛化能力。训练过程还结合了余弦退火学习率调度和AdamW优化器,确保模型稳定收敛到最优解。 **第三,在交互体验上实现了革命性突破。** 推理界面(`infer.py`)基于Tkinter构建了直观的图形化交互系统,用户可通过**左键点击指定前景、右键点击指定背景**的方式提供点提示。系统实时响应用户输入,将点坐标映射为空间热图后与原始图像共同输入训练好的模型,生成精确的分割结果。这种交互方式极大地降低了专业分割的门槛,使得非专业用户也能通过简单点击获得高质量分割效果。

2025-12-18

遥感建筑屋顶语义分割、语义分割数据集(约6000张数据和标签,已处理完可以直接训练,多类别图像分割)

遥感建筑语义分割、语义分割数据集(约6000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255建筑 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,4200张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1800张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-12-18

yolov8 实现的风力涡轮机图像检测完整项目python实现(毕业设计&课程设计&项目开发)

yolov8 实现的风力涡轮机图像检测完整项目python实现(毕业设计&课程设计&项目开发) 【数据集介绍】类别个数(1):风力涡轮机(共约2300张数据和标签) 训练自定义数据集摆放好数据后,更改mydata.yaml文件即可。训练或者推理的话,根据目标下编写的train和predict脚本实现即可。本项目还提供了预训练权重,可以根据不同的检测任务进行微调以达到好的检测精度。 关于yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html yolov8训练数据的介绍: https://blog.csdn.net/qq_44886601/article/details/139810906

2025-12-18

风力涡轮机检测、图像目标检测数据【已标注,约2300张数据和标签,YOLO 标注格式】

风力涡轮机检测、图像目标检测数据【已标注,约2300张数据和标签,YOLO 标注格式】 类别个数【2】cable tower turbine等【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除