自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Henry的博客

佛系学习,正常摆烂

  • 博客(505)
  • 收藏
  • 关注

原创 改进系列(14):基于Swin Transformer的SAM交互式图像分割方法研究:腹部13器官分割

本文提出了一种基于Swin Transformer架构的交互式图像分割方法,通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构,在编码阶段利用Swin Transformer的层次化特征提取能力,在解码阶段结合跳跃连接恢复空间细节。实验结果表明,该方法在标准数据集上取得了较高的分割精度,同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。关键词:交互式图像分割;深度学习;点提示;医学图像分析。

2025-06-19 16:54:34 968 2

原创 改进系列(1):TransUnet结合SAM box改进对MICCAI FLARE腹部13器官图像分割

本章尝试将TransUnet和SAM结合,以期望达到更换的模型TransUnet作为医学图像分割的基准,在许多数据集上均取得了很好的效果,然而最近SAM大模型的兴起,图像分割似乎有了新的方向关于图像分割项目、sam模型复现参考本人其他专栏,这里之作简单介绍TransUnet是一个专门为医学图像分割任务设计的深度学习模型。它是一种卷积神经网络(CNN),采用基于变压器的架构。TransUnet在具有相应分割掩模的大型医学图像数据集上进行训练,以学习如何从输入图像中准确分割器官、病变或其他结构。

2024-10-12 16:12:44 1599

原创 Unet 实战分割项目、多尺度训练、多类别分割

之前写了篇二值图像分割的项目,支持多尺度训练,网络采用backbone为vgg的unet网络。本章实现的unet网络的多类别分割,也就是分割可以是两个类别,也可以是多个类别。训练过程仍然采用多尺度训练,即网络会随机将图片缩放到设定尺寸的0.5-1.5倍之间。

2024-02-05 21:38:35 7904 21

原创 具身智能与人形机器人:技术革命重塑未来

        2025年,具身智能(Embodied AI)首次被写入,标志着这一技术正式成为国家战略级未来产业的核心方向。具身智能的核心在于赋予人工智能“物理身体”,使其通过多模态感知、实时决策和环境交互,实现从虚拟智能向实体智能的跨越。        作为具身智能的理想载体,人形机器人正在全球范围内迎来爆发式落地——从工厂车间到救援现场,从马拉松赛道到家庭客厅,一场“碳硅共生”的文明图景正加速展开。

2025-07-06 14:33:17 1992

原创 SwinTransformer 改进:小波+注意力模块(Wavelet-Guided Attention)

本文提出了一种结合Swin Transformer和小波引导注意力模块(WGAM)的创新模型架构。WGAM通过Haar小波分解将特征图分为四个子带(LL,LH,HL,HH),并分别应用通道注意力和空间注意力机制,同时为各子带分配可学习权重。该模块被集成到Swin Transformer的patch embedding层之后,在不显著增加计算复杂度的情况下,实现了多尺度特征提取和自适应特征增强。实验表明,这种混合架构特别适合高分辨率图像分类、医学图像分析和遥感图像处理等任务。模型采用模块化设计,可灵活集成到其

2025-06-21 10:24:37 249

原创 基于EfficientNet的手势识别计算器系统设计与实现

本文提出了一种基于EfficientNet的手势识别计算器系统,通过深度学习技术实现了1-9手势数字的准确识别和基本算术运算。系统采用EfficientNet-B0网络架构,经过迁移学习和微调训练,在测试集上达到99%的识别准确率。PyQt5构建的图形界面支持用户上传手势图片并执行加减乘除运算,结果实时显示。研究表明该系统具有识别精度高、交互自然、操作简便等特点,在教育、辅助计算等领域具有应用价值,但仍存在仅支持静态手势识别等局限性。

2025-06-21 08:26:34 63

原创 UNet 改进:结合CAM注意力与DLKA注意力的改进UNet

本文提出一种改进的UNet网络架构,通过引入通道注意力模块(CAM)和动态大核注意力模块(DLKA)显著提升特征提取能力。该网络采用经典的编码器-解码器结构,核心创新点包括:1)Triplet_DoubleConv模块整合常规卷积、CAM和DLKA;2)CAM模块通过双路径池化学习通道重要性;3)DLKA模块使用7×7深度可分离卷积捕获大范围空间关系。网络特别适用于医学图像分割等精细任务,在保持UNet优势的同时增强了对长距离依赖和重要特征的捕捉能力。完整PyTorch实现展示了模块化设计,便于迁移应用。

2025-06-19 16:43:15 95

原创 EfficientNet 改进:StripCGLU模块的创新与应用

本文提出了一种改进的EfficientNet-b0模型,核心创新是通过引入StripCGLU模块来提升网络性能。StripCGLU结合了水平/垂直条带卷积和GLU激活机制,具有参数效率高、计算量少的优点。改进策略包括选择性替换部分MBConv为StripCGLU模块(每隔3个块插入),同时保留早期层结构。测试表明该模型适用于移动端视觉任务,在保持效率的同时提升性能。代码实现包含模块定义、模型构建及测试部分,展示了如何通过精心设计的模块改进现有网络架构。

2025-06-17 17:42:50 29

原创 SwinTransformer 改进:结合DLKA与SSPP的模型架构

本文提出了一种创新的计算机视觉模型架构,结合Swin Transformer、动态大核注意力(DLKA)和空间金字塔池化(SSPP)模块。该设计融合了Transformer的全局建模能力与CNN的局部特征提取优势,其中DLKA模块通过通道和空间注意力增强局部特征提取,SSPP模块实现多尺度特征融合。模型在Swin Transformer基础上插入这两个模块,形成兼顾全局-局部特征表达和多尺度处理的混合架构。实验验证表明,该模型适用于需要同时关注细粒度细节和全局上下文的视觉任务,为计算机视觉模型设计提供了新的

2025-06-17 13:27:09 162

原创 ShuffleNet 改进:与通道注意力机制(CAM)的结合实现

本文提出了一种改进的ShuffleNetV2模型,通过集成通道注意力机制(CAM)增强特征表示能力。CAM模块采用双分支结构(平均池化+最大池化)学习通道权重,并使用带压缩比的MLP减少参数量。模型保留了ShuffleNetV2的轻量特性,支持预训练权重加载,通过维度转换技巧将CAM无缝集成到网络中。实验验证表明,该方法在保持高效性的同时提升了模型性能,为轻量级网络设计提供了有效参考。代码开源,可直接应用于图像分类等任务。

2025-06-09 16:20:40 89

原创 改进系列(13):基于改进U-ResNet的脊椎医学图像分割系统设计与实现

本文提出一种改进的U-ResNet医学图像分割系统,通过融合残差连接、通道注意力机制和空间金字塔池化模块,显著提升分割精度。系统采用端到端深度学习框架,实现数据预处理、模型训练到可视化分析全流程自动化。实验表明,该方法平均DSC达0.92以上,优于传统分割网络,并提供友好GUI界面支持交互式操作。改进的网络架构包含多级残差块编码器、多尺度瓶颈层和带注意力机制的解码器,配合联合损失函数优化,有效解决医学图像分割中的特征提取不足和小目标分割难题。系统还实现了六种评估指标计算和多种可视化分析功能。

2025-06-09 13:42:51 785

原创 MobileNet 改进:基于MobileNetV2和SSPP的图像分类

本文介绍了一种结合MobileNetV2和空间金字塔池化(SSPP)的轻量级图像分类模型。该模型采用MobileNetV2作为特征提取器,并集成了自定义SSPP模块,通过多尺度池化增强特征表达能力。模型结构包含特征提取、SSPP处理和线性分类三个部分,其中SSPP支持可配置的池化层级(默认1×1,2×2,4×4)。这种设计既保持了MobileNetV2的高效特性,又提升了模型对不同尺寸特征的适应能力。测试代码验证了模型可处理224×224输入并输出正确维度的分类结果。该实现为计算机视觉任务提供了一种平衡性能

2025-06-06 09:10:32 79

原创 ResUNet 改进:融合DLKA注意力机制

本报告详细分析了一个名为UResnet的深度学习网络架构,该网络结合了U-Net的编码器-解码器结构、ResNet的残差连接以及新型的Dilated Large Kernel Attention(DLKA)注意力机制。该网络设计用于图像分割任务,通过多尺度特征提取和融合实现精确的像素级预测。

2025-06-05 14:29:39 62

原创 CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】

本文记录了在CentOS系统上配置DHCP服务的完整流程:首先确保NAT模式联网,修改yum镜像源后安装DHCP服务;然后配置虚拟机网络为vmnet10(虚拟交换机模式),设置CentOS静态IP时需特别注意格式规范;接着编辑dhcpd.conf文件定义IP地址池(192.168.10.200-210)、网关和DNS;最后启动DHCP服务并设置防火墙规则。成功搭建后,Windows客户端切换为自动获取IP即可完成网络配置,通过/var/lib/dhcpd/dhcpd.leases文件可查看租约信息。全程重点

2025-06-04 18:19:32 1182 1

原创 基于深度学习(Unet和SwinUnet)的医学图像分割系统设计与实现:超声心脏分割

本文提出了一种基于深度学习的医学图像分割系统,采用U-Net和Swin-Unet两种网络架构,实现了高效的医学图像分割。系统包含完整的数据预处理、模型训练评估流程,并提供用户友好的图形界面。实验结果表明,该系统在CT等医学图像分割任务中表现优异,Swin-Unet架构性能优于传统U-Net,窗宽窗位调整显著改善CT图像分割效果。系统具有模块化设计、易扩展等特点,为临床诊断提供了有效的计算机辅助工具。

2025-06-04 09:56:29 317

原创 基于人工智能算法实现的AI五子棋博弈

本项目开发了一个基于Python和Pygame的五子棋游戏系统,包含三种对战模式:人人对战、人机对战和AI对战。系统采用模块化设计,包括棋盘管理、AI决策和主程序三大模块。AI算法基于博弈树搜索和评估函数,实现了棋型识别、Alpha-Beta剪枝、迭代加深搜索等优化技术,能够提供较强对战能力。系统支持自定义游戏模式和AI参数,具有清晰的用户界面和交互设计。未来可进一步优化算法性能并扩展功能,如增加难度选择、网络对战等。项目代码结构合理,便于后续开发和改进。

2025-06-03 15:26:16 1121

原创 NLP实战(5):基于LSTM的电影评论情感分析模型研究

本研究提出了一种基于双向LSTM的深度学习模型,用于电影评论的细粒度情感分类(5分类)。模型采用词嵌入层(100维)、双向LSTM层(2层256维)和全连接层结构,在标准数据集上通过5折交叉验证评估,平均准确率达到55.52%。实验结果显示模型能够有效区分负面、中性到正面的情感表达,其中中性情感与"有点积极/负面"的区分存在改进空间。研究提供了完整的数据预处理流程、模型架构和训练策略,代码已实现模块化,便于复现。未来可结合预训练词向量和注意力机制进一步提升性能。

2025-06-03 13:27:38 1196

原创 U-ResNet 改进:集成CoordinateAttention(坐标注意力)

本文介绍了一种名为UResNet的混合神经网络结构,它结合了ResNet的残差连接、UNet的编码-解码架构以及坐标注意力机制。该网络通过BasicBlock/BottleNeck构建块实现特征提取,采用VGGBlock进行卷积处理,并引入CoordinateAttention模块增强位置感知。在编码阶段逐层下采样,解码阶段通过上采样和跳跃连接恢复分辨率,最终输出分割结果。代码实现展示了完整的网络架构和数据处理流程,测试结果表明该模型能有效处理224×224的输入图像。这种创新组合利用了不同网络的优点,为图

2025-06-02 11:12:45 68

原创 U-ResNet 改进:集成特征金字塔网络(FPN)

本文介绍了UResNet模型的设计与实现,该模型融合了U-Net的编码器-解码器结构、ResNet的残差连接以及特征金字塔网络(FPN)的多尺度特征提取能力。模型包含Up模块、BasicBlock、BottleNeck、VGGBlock和FPN等核心组件,通过编码器下采样、解码器上采样与特征融合,最终输出分割结果。测试表明模型能正确处理256×256输入并输出对应尺寸的分割图。UResNet兼具U-Net的信息保留能力、ResNet的梯度缓解特性以及FPN的多尺度优势,为图像分割任务提供了灵活高效的解决方案

2025-06-02 10:18:00 342

原创 DeepSeek:不同模式(v3、R1)如何选择?

三种模型对比:基础版为默认选项;V3在开放性和规范性文本生成任务中表现优于R1,但使用R1时不宜提供示例(其自主性强)。官方提供PromptLibrary提示语库,V3和R1各有专用提示语模板,例如可将DeepSeek转化为智能体的定制提示方案(150字)

2025-05-29 15:29:02 442

原创 改进系列(12):基于SAM交互式点提示的UNet腹部多脏器分割方法研究

本文提出了一种基于点提示机制的交互式UNet网络用于腹部多脏器医学图像分割。该方法在传统UNet基础上扩展输入通道,加入点提示信息,允许用户在推理阶段通过点击前景和背景区域提供交互指导。实验采用394例腹部CT图像训练,98例验证,最终在验证集上达到Dice系数0.9358和IoU 0.8805的优异性能。与全自动方法相比,该交互式分割方案更具灵活性,能有效修正边界模糊区域的分割错误,为临床医学图像分析提供了实用解决方案。

2025-05-27 10:02:06 739

原创 传输层:TCP协议详解

TCP协议摘要:TCP是一种面向字节流的可靠传输协议,其报文首部包含端口号、序号、确认号等关键字段。通过标记位(URG/ACK/SYN等)控制连接状态,利用窗口机制和校验和确保数据传输可靠性。支持紧急指针处理优先数据,采用自动重传(ARQ)和滑动窗口协议实现高效传输。接收窗口大小动态调整流量,选择确认选项优化重传机制。

2025-05-26 15:05:49 325

原创 ViT模型改进:基于双路径的多尺度特征融合

本文介绍了一种结合Vision Transformer (ViT) 和 ConvNeXt 的双路径深度学习模型,该模型通过多尺度处理和特征融合机制,在图像分类任务中表现出色。模型的核心组件包括多尺度模块和特征融合模块,分别用于捕获不同尺度的空间信息和自适应融合两种架构的特征。多尺度模块利用不同空洞率的卷积并行处理输入特征,而特征融合模块则通过注意力机制动态调整ViT和ConvNeXt特征的权重。双路径模型的设计充分发挥了ViT在全局特征捕获和ConvNeXt在局部特征提取上的优势,并通过预训练权重加速收敛。

2025-05-23 08:26:57 136

原创 插值算法 - 图像缩放插值QT

本文介绍了一个基于PyQt5和OpenCV的图像缩放插值演示工具的实现。该工具允许用户上传本地图片(PNG/JPG/JPEG格式),选择四种常见的插值方法(最近邻插值、双线性插值、双三次插值、区域像素关系插值),并通过滑块实时调整缩放比例(0.1倍到4.0倍),同时并排显示原始图像和缩放后的图像。工具的核心功能包括图像加载与显示、插值方法处理和缩放应用。代码结构清晰,主类ImageScalingGUI负责构建GUI界面和处理用户交互,核心函数apply_scaling根据用户选择的插值方法应用不同的Open

2025-05-22 18:04:18 308

原创 改进系列(11):基于TransUNet改进SA和特征金字塔注意力模块:心脏超声分割

TransUNet是一种结合了Transformer和U-Net架构的医学图像分割模型,它通过将Transformer的强大全局建模能力与U-Net的局部特征提取能力相结合,在医学图像分割任务中表现出色。

2025-05-14 15:43:37 1032

原创 DenseUnet 改进:结合RepHMS动态调整尺度模块

DenseUNet是一种创新的图像分割网络架构,结合了DenseNet的特征提取能力和U-Net的多尺度特征融合机制。其核心创新在于引入了RepHMS模块,该模块支持动态多尺度特征调整,能够根据目标尺寸灵活处理特征图。DenseUNet基于DenseNet-161构建,包含编码路径和解码路径,通过RepHMS模块在解码路径的每个阶段进行多尺度特征调整,并与编码路径的特征进行融合。网络还采用了密集跳跃连接,确保特征的有效传递和重用。DenseUNet支持任意输入通道数和可配置的输出类别数,适用于需要精确像素级

2025-05-14 07:30:00 80

原创 传输层:UDP协议

UDP(User Datagram Protocol,用户数据报协议)是一种无连接的传输层协议,适用于对实时性要求高但允许少量丢包的应用,如视频流和DNS查询。UDP报文由8字节的头部和可变长度的数据部分组成。头部包括源端口号、目的端口号、报文长度和校验和。校验和用于检测传输错误,计算时包括伪头部、UDP头部和数据部分。UDP的特点是无连接、不可靠和轻量级,适用于低延迟场景。示例报文展示了如何构造一个简单的UDP报文。

2025-05-13 19:40:35 447

原创 网络层:ARP协议(原理、攻击和防御)

声明:本文只做原理讲解,分享技术。一切实验均在虚拟机中实现

2025-05-13 10:33:03 238

原创 FCN改进:CBAM注意力机制增强FCN-ResNet50分割模型

本文介绍了一个结合CBAM(Convolutional Block Attention Module)注意力机制的FCN-ResNet50语义分割模型的实现。CBAM模块通过通道注意力和空间注意力机制,帮助模型聚焦于图像中的重要特征和区域,从而提高分割精度。代码首先实现了CBAM模块,接着在FCN-ResNet50模型的ResNet50骨干网络的四个层级后分别添加了CBAM模块,最后进行了前向传播测试。测试结果显示,模型能够输出5个类别的分割概率图。这种设计通过在不同层级添加注意力模块,捕捉不同尺度的特征,

2025-05-13 09:24:40 635

原创 网络层:ICMP协议

ICMP(Internet Control Message Protocol)是IP协议的一部分,用于发送差错报告和网络诊断信息。其报文格式包括类型和代码字段,用于标识不同的差错类型。常见的差错报告报文包括TTL过期、目标主机不可达和路由重定向。TTL过期表示数据包在传输过程中超过了生存时间;目标主机不可达表示无法找到目标网络的路由;路由重定向则指示更优的路由路径。此外,ping命令用于测试网络连通性,tracert命令用于追踪数据包路径,pathping命令结合了ping和tracert的功能,提供更详细

2025-05-12 18:14:53 222

原创 DeepSeek+Kimi实战:PPT制作教程

如下:生成完了,进行复制:如下:Kimi - 会推理解析,能深度思考的AI助手选择这里进行将deepseek生成的复制进去生成ppt可以选择模板,点生成即可如下:可以自行编辑或者直接下载下载即可:会自动在网页弹窗参考制作的ppt:【免费】人工智能授课ppt参考资源-CSDN文库

2025-05-08 17:49:25 422

原创 DeepSeek+即梦AI实战:图片制作教程

复制这里: 如下:即梦AI - 一站式AI创作平台点进这里复制即可:如下: 效果不能说差吧,相比之前自己的提示词,确实好了不少

2025-05-08 15:29:32 249

原创 第20章:深度学习图像分割实战之UNet与DeepLabV3的对比分析【脊椎分割实验】

本文实现了一个完整的图像分割项目框架,通过对比UNet和DeepLabV3两种经典网络,展示了不同架构在分割任务上的表现差异。项目提供了从数据预处理到结果可视化的完整流程,可以作为图像分割任务的开发模板。实验结果表明,没有绝对优越的模型,实际应用中需要根据具体任务需求和数据特点选择合适的架构。本文通过对比两种经典分割网络——UNet和DeepLabV3,分享一个完整的图像分割项目实现,包括数据预处理、模型训练、评估指标可视化和模型对比分析。可以自己将模型扩充多个,然后,这里填对应的json结果即可。

2025-05-07 10:20:14 1348

原创 opencv实战:银行卡卡号识别

在当今数字化时代,光学字符识别(OCR)技术变得越来越重要。本文将详细介绍如何使用来识别银行卡的卡号,并在原图上标注识别结果。

2025-05-06 18:46:33 890

原创 【C语言】推箱子小游戏

这是一个基于C语言实现的经典推箱子游戏,采用控制台字符界面进行交互。玩家通过WASD键控制角色推动箱子,目标是将所有箱子移动到指定点位。程序包含地图绘制、碰撞检测、胜利判断等完整游戏机制。

2025-05-06 16:14:31 279

原创 EfficientNet 改进:与Transformer结合的图像分类模型

这个实现将EfficientNet的高效特征提取能力与Transformer的强大序列建模能力相结合,主要包含以下几个核心组件:​​基础卷积模块​​:包括Swish激活函数和ConvBnAct组合模块​​MBConv模块​​:EfficientNet的核心构建块​​Squeeze-Excitation注意力机制​​:通道注意力模块​​Transformer分类头​​:替代传统全连接层的创新设计。

2025-05-04 12:38:12 120

原创 SwinTransformer 改进:与PSConv结合的创新设计

这段代码实现了一个改进版的Swin Transformer模型,主要创新点在于:使用Swin Transformer作为基础架构在patch embedding层后加入PSConv模块自定义分类头以适应不同任务本文分析的代码展示了一种创新的深度学习架构设计思路,通过将Swin Transformer与PSConv相结合,在保持Transformer全局建模能力的同时,增强了局部特征提取能力。

2025-05-04 12:22:59 115

原创 DenseUNet 改进:结合APBottleneck(注意力瓶颈模块)

今天我们将深入分析一个名为DenseUNet的神经网络架构,它巧妙地将DenseNet的强大特征提取能力与UNet的经典U型结构相结合,并加入了注意力机制来提升模型性能。这个网络特别适用于图像分割任务,能够处理不同数量的输入和输出通道。

2025-04-30 10:55:28 722

原创 改进系列(10):基于SwinTransformer+CBAM+多尺度特征融合+FocalLoss改进:自动驾驶地面路况识别

整体特点:​​技术先进性​​:结合了Swin Transformer和注意力机制,利用了当前先进的深度学习技术。​​完整流程​​:覆盖了从数据准备、模型训练到应用部署的完整流程。​​模块化设计​​:各组件职责明确,耦合度低,便于维护和扩展。​​可视化丰富​​:提供多种训练过程和数据分布的可视化,便于模型分析和调试。​​用户友好​​:通过GUI界面降低了使用门槛,使技术成果更易于实际应用。​​文档完整​​:代码结构清晰,注释充分,便于理解和二次开发。

2025-04-30 10:34:24 1473

原创 插值算法 - 双三次插值(Bicubic Interpolation)

双三次插值(Bicubic Interpolation)是一种高质量的图像插值方法,比双线性插值更平滑,能保留更多细节。它广泛应用于图像缩放、旋转、变形等任务。​双三次插值基于​​,在二维图像中,它使用目标像素周围的 ​​ 进行加权计算。​​在一维情况下,给定 4 个点 p−1​,p0​,p1​,p2​,目标点 x∈[0,1] 的插值公式为:其中,系数 a,b,c,d 由边界条件(如连续性和平滑性)决定。更常用的形式是​​(一种三次插值方法):​​在二维图像中,双三次插值分别在 ​。

2025-04-29 17:47:25 486

基于EfficientNet的手势识别计算器系统设计与实现

摘要 本文提出了一种基于深度学习的手势识别计算器系统,该系统能够识别1-9的手势数字图像,并执行基本的算术运算。系统采用EfficientNet-B0作为基础网络架构,通过迁移学习和微调技术实现高精度手势识别。实验结果表明,该系统在测试集上达到了较高的识别准确率,并能准确执行加减乘除等基本运算。本研究为人机交互领域提供了一种直观、自然的交互方式,在教育、辅助计算等领域具有潜在应用价值。 关键词:手势识别;EfficientNet;深度学习;人机交互;计算器系统 随着计算机视觉和深度学习技术的快速发展,基于视觉的手势识别技术已成为人机交互领域的研究热点之一。传统计算器需要用户通过物理或虚拟按键输入数字,而基于手势识别的计算器系统则提供了一种更为自然直观的交互方式,特别适用于教育、虚拟现实和辅助技术等应用场景。 本文设计并实现了一个基于PyQt5图形界面和PyTorch深度学习框架的手势识别计算器系统。系统核心采用EfficientNet-B0网络结构,通过迁移学习技术在手势数据集上进行微调训练,实现了1-9手势数字的高精度识别。系统界面友好,支持用户上传手势图片并选择加减乘除等运算操作,计算结果实时显示。 相比传统手势识别方法,本系统具有以下优势:(1)采用轻量级EfficientNet网络,在保证识别精度的同时降低了计算资源需求;(2)提供直观的图形用户界面,操作简便;(3)系统模块化设计,便于功能扩展和性能优化。

2025-06-19

医学图像数据集:腹部13类别器官图像语义分割数据集(约1100张数据和标签,已处理,多类别图像分割)

【14类别的分割,查看classes文件】 { "0": "background", "1": "spleen", "2": "right kidney", "3": "left kidney", "4": "gallbladder", "5": "esophagus", "6": "liver", "7": "stomach", "8": "aorta", "9": "IVC", "10": "veins", "11": "pancreas", "12": "rad", "13": "lad" } 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,900张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,200张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-19

深度学习基于PyTorch的UNet图像分割模型实现:双卷积与注意力机制结合的医学影像分析系统设计

内容概要:本文档详细介绍了基于PyTorch实现的UNet神经网络架构及其组件。UNet是一种常用于图像分割任务的卷积神经网络。文中定义了多个模块,包括DoubleConv(双卷积层)、CAM(通道注意力模块)、DLKA(动态大核注意力机制)、Triplet_DoubleConv(结合了双卷积与两种注意力机制)、Down(下采样模块)、Up(上采样模块)以及OutConv(输出层)。这些模块共同构成了完整的UNet模型。每个模块都精心设计了前向传播方法,确保了特征提取的有效性和准确性。此外,还展示了如何创建UNet实例并进行简单的测试。 适合人群:对深度学习尤其是计算机视觉领域感兴趣的开发者或研究人员,特别是那些希望深入了解UNet架构及其应用的人士。 使用场景及目标:①理解UNet的工作原理,包括各个组成部分的功能;②掌握如何使用PyTorch构建复杂的神经网络模型;③为解决实际问题如医学影像分析、遥感图像处理等提供理论和技术支持。 阅读建议:由于本文档主要涉及技术细节,建议读者具备一定的Python编程能力和PyTorch框架基础知识,在阅读时可以结合相关文献资料加深理解,同时尝试运行示例代码以增强实践能力。

2025-06-19

基于Swin Transformer的SAM交互式图像分割方法研究:腹部多器官医学图像分割

摘要: 本文提出了一种基于Swin Transformer架构的交互式图像分割方法,通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构,在编码阶段利用Swin Transformer的层次化特征提取能力,在解码阶段结合跳跃连接恢复空间细节。实验结果表明,该方法在标准数据集上取得了较高的分割精度(mIoU达到0.85),同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。 交互式图像分割是计算机视觉领域的重要研究方向,它允许用户通过简单的交互(如点击、画线)指导算法完成精确分割。传统方法如GrabCut依赖人工设计的能量函数,而深度学习方法通过学习复杂特征表示显著提升了性能。本文基于Swin Transformer架构,设计了一种端到端的交互式分割系统,主要贡献包括: 提出了四通道输入机制,将RGB图像与点提示通道融合 设计了基于Swin UNet的轻量级网络结构 实现了完整的训练-推理流程和可视化交互界面

2025-06-19

深度学习数据集:芒果水果病害图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数2900,val数据总数1200。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别5: { "0": "Alternariose", "1": "Anthracnose", "2": "Aspergillus Rot", "3": "Healthy", "4": "Stem and Rot" }

2025-06-17

无人机图像语义分割数据集(约1000张数据和标签,已处理完可以直接训练,2类别图像分割)

【无人机类别的分割,查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,700张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,300张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-17

基于 Resnet 网络改进实战(添加SelfAttention自注意力机制):黄麻叶病害识别【有效涨点!】

【分类介绍】 网络采用resnet34融合自注意力机制 1.训练的时候根据需要进行迁移学习或者只训练分类层;为了做对比消融试验,优化器采用了Adam和SGD,也可以自行添加;损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 2. 验证集的评估会在训练同时完成,训练脚本会对训练集和验证集同时评估,指标有loss、准确率、混淆矩阵、recall、precision、F1 score、特异度等,并返回对应的曲线图像。也可以根据个人需要绘制不同曲线,请参考训练日志json文件 3. 推理的时候将图片放在指定目录即可 4. 想要更换数据集,参考readme文件,按照要求摆放好数据即可 【改进】 代码在resnet每个layer后加入了SelfAttention模块,可以根据需要只在某个layer后添加,注释掉其他的即可。为了方便,想要更好别的模块,只需要将SelfAttention替换即可 本项目数据集为黄麻叶是否有病害图像分类,可以一键运行 更多分类、分割改进:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-17

基于 MobileNetV3轻量级网络实现的自适应迁移学习图像识别实战:黄麻叶病害分类一键运行

该项目是一个基于MobileNet V3模型的图像分类系统,旨在通过深度学习技术实现高效的图像分类任务。系统主要由三个模块组成:模型训练、推理预测和工具函数。首先,train.py脚本负责模型的训练过程,用户可以通过命令行参数设置模型类型、优化器、学习率、批量大小等超参数。训练过程中,脚本会自动进行数据预处理、模型初始化、训练与验证循环,并保存最佳模型权重和训练日志。训练结束后,系统会生成损失曲线、准确率曲线、混淆矩阵、recall、F1、precision、ROC曲线和AUC值等可化结果,帮助用户评估模型性能。 其次,infer.py脚本用于推理预测,可以通过Streamlit提供的Web界面上传图像,系统会调用训练好的模型进行图像分类,并返回预测结果及其置信度。本项目没有训练,可以自行训练 关于AI改进参考:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-17

深度学习数据集:黄麻叶病害图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数600,val数据总数250。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别2: { "0": "Cescospora_leaf_spot", "1": "Healthy" }

2025-06-17

图像分类数据集:狗是否在便便图像识别分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数2300,val数据总数1000。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别2: { "0": "notpoop", "1": "poop" }

2025-06-17

深度学习基于PyTorch的改进EfficientNet模型设计:引入StripCGLU模块提升图像分类性能

内容概要:本文介绍了一种改进的EfficientNet模型,主要通过引入StripCGLU模块来增强模型性能。StripCGLU模块结合了水平和垂直条带卷积与GLU门控线性单元,具体实现包括两个二维卷积层(分别用于水平和垂直方向)以及批量归一化层。改进后的EfficientNet在部分MBConv块后插入StripCGLU模块,并调整分类器输出层以适应指定类别数量。此外,提供了测试代码验证模型结构及其输入输出情况。; 适合人群:对深度学习尤其是卷积神经网络有一定了解的研究人员或开发者,特别是关注图像分类任务优化的人群。; 使用场景及目标:①理解卷积神经网络中引入新型模块(如StripCGLU)的方法;②学习如何基于现有模型(如EfficientNet)进行自定义修改以提升特定任务表现;③掌握条带卷积与GLU门控机制的应用方式。; 阅读建议:本文涉及较多技术细节,建议读者具备一定的PyTorch编程基础和卷积神经网络理论知识。在阅读时可以结合提供的测试代码,尝试运行并理解各部分的功能实现。

2025-06-17

【计算机视觉】Swin Transformer结合DLKA与SSPP模块:图像分类模型结构改进与实现

内容概要:本文介绍了一种基于Swin Transformer的改进模型,结合了动态大核注意力机制(DLKA)和空间金字塔池化(SSPP)。DLKA模块通过通道注意力和空间注意力的结合,增强了特征图的表征能力;SSPP模块通过多尺度池化操作,提取不同尺度下的特征信息。文章详细展示了DLKA和SSPP模块的具体实现,包括它们的初始化和前向传播过程。此外,还介绍了如何将这两个模块集成到预训练的Swin Transformer模型中,以提升模型性能。最后,通过构建并测试了一个简单的模型实例,验证了模型的输出形状符合预期。 适合人群:对深度学习有一定了解,尤其是熟悉PyTorch框架和计算机视觉领域的研究人员或工程师。 使用场景及目标:①希望深入了解注意力机制和多尺度特征提取方法在卷积神经网络中的应用;②需要在现有模型基础上进行改进以提升模型性能的研究人员;③想要学习如何将自定义模块集成到预训练模型中的开发者。 阅读建议:由于本文涉及较多的技术细节和代码实现,建议读者在阅读时结合PyTorch官方文档,逐步理解每个模块的功能和实现方式,并尝试运行示例代码以加深理解。

2025-06-17

手势图像目标检测数据【已标注,约700张数据和标签,YOLO 标注格式】

类别个数【7】:fist one two three【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-06-12

基于Transformer-Unet对腹部多脏器(13+1类别)的实战分割、包含代码、数据、训练结果

基于Transformer-Unet对腹部多脏器的实战分割、包含代码、数据、训练结果 global correct: 0.9881 precision: ['0.9930', '0.9653', '0.9447', '0.9456', '0.8626', '0.8249', '0.9715', '0.9547', '0.9285', '0.8862', '0.7844', '0.8250', '0.6903', '0.6778'] recall: ['0.9946', '0.9629', '0.9289', '0.9399', '0.8278', '0.6833', '0.9729', '0.9265', '0.9263', '0.8522', '0.7127', '0.7678', '0.5549', '0.4758'] IoU: ['0.9877', '0.9306', '0.8810', '0.8917', '0.7314', '0.5968', '0.9459', '0.8875', '0.8646', '0.7681', '0.5960', '0.6603', '0.4443', '0.3880'] mean IoU: 0.7553 类别: { "0": "background", "1": "spleen", "2": "right kidney", "3": "left kidney", "4": "gallbladder", "5": "esophagus", "6": "liver", "7": "stomach", "8": "aorta", "9": "IVC",等

2025-06-11

人脸面部图像语义分割数据集(约5000张数据和标签,已处理完可以直接训练,多类别图像分割)

【18个人脸部位类别的分割,查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,3500张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1500张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-11

医学图像分类数据集:基于spine骨折的图像识别分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数3800,val数据总数400。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别2: { "0": "fracture", "1": "normal" }

2025-06-11

yolov8 实现的工地起重机(塔吊)图像检测完整项目python实现(毕业设计&课程设计&项目开发)、已经训练完成

yolov8 实现的工地起重机(塔吊)图像检测完整项目python实现(毕业设计&课程设计&项目开发)、已经训练完成 【数据集介绍】类别个数(1):起重机(共约3000张数据和标签) 训练结果: epoch,time,train/box_loss,train/cls_loss,train/dfl_loss,metrics/precision(B),metrics/recall(B),metrics/mAP50(B),metrics/mAP50-95(B),val/box_loss,val/cls_loss,val/dfl_loss,lr/pg0,lr/pg1,lr/pg2 100,1327.35,0.48111,0.44115,1.12619,0.88354,0.76705,0.88961,0.72535,0.72615,0.60775,1.27686,3.98e-05,3.98e-05,3.98e-05 训练自定义数据集摆放好数据后,更改mydata.yaml文件即可。训练或者推理的话,根据目标下编写的train和predict脚本实现即可。本项目还提供了预训练权重,可以根据不同的检测任务进行微调以达到好的检测精度。 关于yolov5改进介绍、或者如何训练,请参考: https://blog.csdn.net/qq_44886601/category_12605353.html yolov8训练数据的介绍: https://blog.csdn.net/qq_44886601/article/details/139810906

2025-06-10

起重机crane图像目标检测数据【已标注,约2900张数据和标签,YOLO 标注格式】

起重机crane图像目标检测数据【已标注,约2900张数据和标签,YOLO 标注格式】 类别个数【1】:起重机crane【具体参考classes文件】 数据集做了训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-06-10

基于 MobileNet和EfficientNet轻量级网络实现的自适应迁移学习图像识别实战:9种混凝土骨料颗粒识别【包含数据集、训练结果】

该项目是一个基于MobileNet V3模型的图像分类系统,旨在通过深度学习技术实现高效的图像分类任务。系统主要由三个模块组成:模型训练、推理预测和工具函数。首先,train.py脚本负责模型的训练过程,用户可以通过命令行参数设置模型类型、优化器、学习率、批量大小等超参数。训练过程中,脚本会自动进行数据预处理、模型初始化、训练与验证循环,并保存最佳模型权重和训练日志。训练结束后,系统会生成损失曲线、准确率曲线、混淆矩阵、recall、F1、precision、ROC曲线和AUC值等可化结果,帮助用户评估模型性能。 关于AI改进参考:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-09

图像分类数据集:混凝土骨料粒度图像识别分类【包括划分好的数据、类别字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数600,val数据总数270。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别9: { "0": "A16", "1": "A32", "2": "A8", "3": "B16", "4": "B32", "5": "B8", "6": "C16", "7": "C32", "8": "C8" }

2025-06-09

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战:天气状况图像分类

【项目简介】 代码主干网络采用DenseNet家族系列,包括densenet121,161,169,201模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层,只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验,优化器采用了Adam和SGD两种,如果需要增加其他的,可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。 【如果想要更换数据集训练,参考readme文件】 【本项目为天气状况图像分类(约1.5k张数据),包含数据集和标签,可以一键运行】

2025-06-25

深度学习数据集:自然天气状况图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数1000,val数据总数400。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别5: { "0": "cloudy", "1": "foggy", "2": "rainy", "3": "shine", "4": "sunrise" }

2025-06-25

基于深度学习 Resnet 网络图像分类实战:驾驶员眼球状态图像分类

【分类介绍】 网络采用resnet家族 1.训练的时候根据需要进行迁移学习或者只训练分类层;为了做对比消融试验,优化器采用了Adam和SGD,也可以自行添加;损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 2. 验证集的评估会在训练同时完成,训练脚本会对训练集和验证集同时评估,指标有loss、准确率、混淆矩阵、recall、precision、F1 score、特异度等,并返回对应的曲线图像。也可以根据个人需要绘制不同曲线,请参考训练日志json文件 3. 推理的时候将图片放在指定目录即可 4. 想要更换数据集,参考readme文件,按照要求摆放好数据即可 本项目数据集为7种驾驶员眼球状态图像分类,可以一键运行 更多分类、分割改进:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-25

深度学习数据集:驾驶员眼球状态检测图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数3400,val数据总数1400。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别7: { "0": "angry", "1": "brake", "2": "distracted", "3": "excited", "4": "focus", "5": "mistake", "6": "tired" }

2025-06-25

深度学习数据集:服装图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数5200,val数据总数2200。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html 类别15: Blazer 夹克 Celana_Panjang (Long Pants) Celana_Panjang (长裤) Celana_Pendek (Shorts) Celana_Pendek (短裤) Gaun (Dresses) Gaun (连衣裙) Hoodie 帽 衫 Jaket (Jacket) Jaket (夹克) Jaket_Denim (Denim Jacket) Jaket_Denim (牛仔夹克) Jaket_Olahraga (Sports Jacket) Jaket_Olahraga (运动夹克) Jeans 牛仔裤 Kaos (T-shirt) Kaos (T 恤) Kemeja (Shirt) Kemeja (衬衫) Mantel (Coat) 壁炉架(外套) Polo 马球 Rok (Skirt) Rok (裙子) Sweter (Sweater) Sweter (毛衣)

2025-06-25

Resnet 网络改进实战(在每个layer后加入CBAM模块实战):服装衣服图像分类

【分类介绍】 网络采用resnet家族系列,包括resnet18、34、50、101、152系列 1.训练的时候根据需要进行迁移学习或者只训练分类层;为了做对比消融试验,优化器采用了Adam和SGD,也可以自行添加;损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 2. 验证集的评估会在训练同时完成,训练脚本会对训练集和验证集同时评估,指标有loss、准确率、混淆矩阵、recall、precision、F1 score、特异度等,并返回对应的曲线图像。也可以根据个人需要绘制不同曲线,请参考训练日志json文件 3. 推理的时候将图片放在指定目录即可 4. 想要更换数据集,参考readme文件,按照要求摆放好数据即可 【改进】 代码在resnet每个layer后加入了CBAM模块,可以根据需要只在某个layer后添加,注释掉其他的即可。为了方便,想要更好别的模块,只需要将CBAM替换即可 本项目数据集为15种服饰图像分类 更多分类、分割改进:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-25

基于VGG模型(vgg11、vgg13、vgg16等)实现的自适应迁移学习图像识别:服装图像分类

【项目简介】 代码主干网络采用VGG家族系列,包括vgg11、vgg13、vgg16、vgg19等模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层,只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验,优化器采用了Adam和SGD两种,如果需要增加其他的,可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。 【具体各类别的指标在json文件中查看】 【how to train】 仅仅将数据集按照本项目的参考猫狗数据集摆放即可,参考readme文件,不需要更改参数!! 【本项目为15种常见服装图像分类 (约7k数据),包含数据集和标签,可以一键运行】 关于vgg网络模型的改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-25

闭路电视视频中的枪支和刀具检测图像目标检测数据【已标注,约7200张数据和标签,YOLO 标注格式】

类别个数【2】:pistol knife【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-06-25

洪水区域图像语义分割数据集(约280张数据和标签,已处理完可以直接训练,2类别图像分割)

【洪水区域的分割,,标签信息,查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,200张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,80张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-23

ResUNet+SSPP+CAM+联合损失改进:洪水灾害图像分割数据集(2类图像分割任务)

代码实现了一个基于UNet架构的医学图像分割系统,支持标准UNet模型,能够自动处理CT等医学影像数据的分割任务。 系统采用PyTorch框架构建,包含完整的数据加载、模型训练、评估和可视化功能,使用交叉熵损失函数和AdamW优化器进行训练,并通过余弦退火策略调整学习率。训练过程中会计算Dice系数、IoU、精确率、召回率等指标,并将结果以JSON格式保存,同时提供损失曲线、学习率衰减曲线等多维度可视化功能。 代码通过命令行参数灵活配置,支持自定义输入尺寸、批次大小等超参数,能够自动分析掩码图像确定分割类别数,并保存最佳模型权重,为医学图像分割任务提供了完整的解决方案。同事提供了美观的可视化推理界面,可以一键推理。 【改进策略】1.加入SSPP模块 2.加入CAM注意力模块 3.采用多类别的交叉熵和dice 损失 更多unet、swinUnet改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-23

基于UNet与DeepLabV3的图像分割系统【训练、评估与可视化分析】自然灾害洪水区域分割、包含完整数据集和代码

系统基于PyTorch框架,支持UNet和DeepLabV3两种主流分割网络,实现了端到端的训练流程和性能评估。 train.py是系统的核心执行文件,负责整个训练流程的协调。它首先通过参数解析器接收用户配置,包括模型类型、训练参数(批次大小、学习率、epoch数等)、数据路径等。系统会自动创建输出目录,初始化模型,并采用Adam优化器配合余弦退火学习率衰减策略。训练过程中,系统使用自定义的MyDataset类加载数据,支持数据增强和CT图像的特殊预处理。每个epoch会计算并记录训练集和验证集的损失值、mIoU、Dice系数等指标,通过ConfusionMatrix类综合评估模型性能,自动保存最佳模型权重。训练结束后会生成学习率衰减曲线、损失-指标曲线等多种可视化结果。 utils.py提供了丰富的工具函数,包括:1)模型构建函数get_model,根据参数实例化对应网络;2)混淆矩阵类ConfusionMatrix,用于计算精度、召回率、F1、IoU等关键指标;3)数据加载类MyDataset,实现图像预处理、数据增强和标签映射;4)多种可视化函数,如plot_lr_decay绘制学习率变化,plt_loss_iou_dice展示训练曲线;5)训练和评估的核心函数train_one_epoch/evaluate,包含前向传播、损失计算和指标统计逻辑。 compare.py专注于训练结果的可视化分析,通过加载训练生成的JSON日志文件,提供跨模型的性能对比功能。其extract_metrics函数能解析不同模型的训练指标,plot_comparison函数则生成包含训练集和验证集对比的子图,支持F1、IoU、Loss等指标的并行展示,便于研究者直观比较不同模型的优劣。

2025-06-23

基于Swin Transformer的SAM点提示交互式图像分割系统源码

在这个人工智能技术飞速发展的时代,图像分割作为计算机视觉领域的重要研究方向,正在医疗诊断、自动驾驶、遥感监测等诸多领域发挥着关键作用。本文将介绍一个基于Swin Transformer架构的交互式图像分割系统,它通过创新的点提示机制,实现了高效精准的图像分割效果。 这一系统的核心在于其独特的网络架构设计。模型采用了Swin Transformer作为基础结构,这是一种具有层次化设计的视觉Transformer,通过局部窗口内的自注意力计算和窗口间的移位操作,既保持了Transformer强大的特征提取能力,又显著降低了计算复杂度。特别值得注意的是,该系统创造性地将传统的4通道输入(RGB图像加单通道点提示图)与Swin Transformer相结合,使得模型能够同时理解图像内容和用户交互意图。 系统的训练过程体现了严谨的科学方法。训练数据集采用了标准的图像-掩膜对结构,通过自定义的MyDataset类实现了数据的高效加载与增强。在训练策略上,系统采用了AdamW优化器和余弦退火学习率调度,配合交叉熵损失函数,确保了模型稳定收敛。评估指标方面,除了常规的准确率和IoU外,还引入了Dice系数和F1分数等医学图像分割中常用的评价标准,全面衡量模型性能。 在交互设计上,该系统展现了人性化的特点。基于Tkinter构建的图形界面简洁直观,用户可以通过简单的鼠标点击添加前景点和背景点提示。系统实时响应这些交互信息,将其编码为点提示图并与原始图像拼接,形成4通道输入。这种设计不仅降低了用户交互门槛,还通过可视化掩膜叠加和点标记反馈,形成了良好的用户体验闭环。 技术实现细节上,系统展现了多项创新。在数据预处理阶段,采用了动态点采样策略,根据掩膜内容自动选择最具代表性的前景点;在结果可视化环节,通过透明叠加和热力图等技术,使分割结果一目了然。

2025-06-23

200多张高质量的裂缝分割数据集、已经标注

200多张高质量的裂缝分割数据集、已经标注

2025-07-06

基于transunet和transunet改进【空间注意力模块SA+特征金字塔+损失改进】分割系统:海岸线分割

代码实现了一个基于transunet和transunet改进架构的医学图像分割系统,支持标准UNet模型,能够自动处理CT等医学影像数据的分割任务。 系统采用PyTorch框架构建,包含完整的数据加载、模型训练、评估和可视化功能,使用交叉熵损失函数和AdamW优化器进行训练,并通过余弦退火策略调整学习率。训练过程中会计算Dice系数、IoU、精确率、召回率等指标,并将结果以JSON格式保存,同时提供损失曲线、学习率衰减曲线等多维度可视化功能。 代码通过命令行参数灵活配置,支持自定义输入尺寸、批次大小等超参数,能够自动分析掩码图像确定分割类别数,并保存最佳模型权重,为医学图像分割任务提供了完整的解决方案。推理采用QT可视化推理,可保存结果。 【改进策略】1.空间注意力模块 2.特征金字塔模块 3.采用多类别的交叉熵和dice 损失 更多unet、swinUnet改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

基于网页版推理实现的ResUNet和UNet医学图像分割项目:海岸线图像分割

数据集采用【海岸线图像分割】,数据在data目录下,划分了训练集和验证集。【代码可一键运行】 【介绍】分割网络为ResUNet和UNet(可以自行选择),学习率采用cos余弦退火算法。如果想在大尺度进行训练,修改base-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等,代码会对训练和验证集进行评估,结果保存runs下的json文件中。 网络推理的时候采用可视化推理,运行infer脚本会打开本地网页,上传图片即可进行推理 更多医学图像语义分割实战:https://blog.csdn.net/qq_44886601/category_12816068.html 图像分类、语义分割网络改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

海岸线区域图像语义分割数据集(约2000张数据和标签,已处理完可以直接训练,2类别图像分割)

【海陆区域的分割,标签信息,0 背景 255 海岸线查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1400张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,600张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-30

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目,包含可视化QT推理界面【pytorch实现】

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目,包含可视化QT推理界面【pytorch实现】 数据集采用【海洋、陆地图像分割】,数据在data目录下,划分了训练集和验证集。【代码可一键运行】 【介绍】分割网络为UNet、UNet++、UNet3+(可以自行选择),学习率采用cos余弦退火算法。如果想在大尺度进行训练,修改base-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等代码会对训练和验证集进行评估。如果有测试集的话,也会自动进行评估 网络推理的时候,会生成QT窗口,直接上传图片即可 更多医学图像语义分割实战:https://blog.csdn.net/qq_44886601/category_12816068.html 医学图像改进:https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

航拍下的海陆区域图像语义分割数据集(约2000张数据和标签,已处理完可以直接训练,2类别图像分割)

【海陆区域的分割,标签信息,0 陆地 255 海水查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1400张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,600张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-30

甲状腺结节分析系统,基于超声图像和结节掩膜自动评估结节的临床特征,并按照ACR TI-RADS标准进行分类

这段代码实现了一个甲状腺结节分析系统,基于超声图像和结节掩膜自动评估结节的临床特征,并按照ACR TI-RADS标准进行分类。系统采用Python编写,主要依赖OpenCV和NumPy库进行图像处理与数值计算。 代码核心是`ThyroidNoduleAnalyzer`类,包含多个量化方法:`quantify_composition()`通过灰度直方图分析结节成分(囊性/实性/混合型),严格遵循Zhuang等人的论文方法;`quantify_echogenicity()`比较结节与正常甲状腺组织的灰度差异,确定回声强度(高回声/等回声/低回声);`quantify_shape()`计算纵横比和紧凑度评估形态特征;`quantify_margin()`通过边界带灰度差异分析边缘规则性;`quantify_echogenic_foci()`检测钙化灶类型(点状/粗钙化/彗星尾征)。此外,`create_thyroid_mask()`方法从结节位置推断甲状腺区域,`calculate_tirads()`整合各特征得分生成TI-RADS分级(TR1-TR5)和临床建议。 系统最终输出结构化分析结果和可读报告,包含五项特征的具体评分、总分、TI-RADS分级及临床处理建议。该实现紧密结合临床指南,通过量化指标减少主观判断差异,适用于辅助医生进行甲状腺结节风险评估。示例代码展示了从图像加载到报告生成的全流程,实际应用中需确保输入图像和掩膜的质量。

2025-06-26

深度学习基于WGAM模块的Swin Transformer改进:多尺度特征融合与注意力机制在图像分类中的应用

内容概要:本文介绍了一个名为WGAM(Wavelet-based Global Attention Module)的深度学习模块,它结合了小波变换、通道注意力机制和空间注意力机制来增强特征表示。该模块首先对输入图像进行小波分解,得到四个子带系数(LL、LH、HL、HH),然后分别应用可学习权重,并对LL子带应用通道注意力机制。接着,所有子带经过上采样后合并,并施加空间注意力机制。最后,减少通道数量以匹配输入通道数。此外,还展示了如何将WGAM集成到Swin Transformer模型中,通过修改其部分结构以适应新的模块。; 适合人群:具有深度学习基础知识,特别是熟悉卷积神经网络和注意力机制的研究人员或工程师。; 使用场景及目标:①研究和开发基于小波变换的深度学习模型;②改进现有视觉模型的特征提取能力;③探索多尺度特征融合的新方法。; 阅读建议:读者应具备一定的PyTorch编程经验,以及对小波变换和注意力机制的理解。在阅读时,建议重点关注WGAM的设计思路及其与Swin Transformer的集成方式,并尝试复现代码以加深理解。

2025-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除