肆十二-CSDN博客

原创【大作业-64】多模态之YOLO-World

YOLO-World是一个基于 YOLOv8 架构的开放词汇目标检测模型，由腾讯 AILab-CVC 团队提出，发表在 CVPR 2024。

2026-03-22 20:20:32 383

开放词汇目标检测研究综述摘要开放词汇目标检测(OVOD)突破了传统目标检测的封闭类别限制，能够通过自然语言描述识别任意新类别。本文系统梳理了OVOD的研究进展：首先分析传统检测方法的局限性(封闭类别、泛化能力差、扩展成本高)，明确OVOD的核心定义是"基于文本引导识别新物体"；其次对比传统与开放检测在类别设定、文本输入、零样本能力等方面的差异；然后介绍OVOD发展历程，从2017年萌芽期到2023年实时期(YOLO-World等)；最后指出OVOD的优势在于无需重新训练即可扩展新类别，

2026-03-22 14:57:53 402

原创深度学习驱动的海洋生物检测与细粒度识别：基于“检测-检索”级联架构的模型开发策略与前沿算法分析

摘要本文提出了一种基于"检测-检索"级联架构的深度学习模型开发策略，用于解决海洋生物检测与细粒度识别的关键挑战。该策略首先采用通用目标检测器定位水下生物，再通过度量学习进行细粒度分类，有效应对了水下视觉退化、物种长尾分布等难题。研究详细分析了水下图像增强技术、数据不平衡处理策略，以及开放世界目标检测算法，并探讨了半监督学习在提升模型泛化能力方面的优势。实验表明，该方法在保持高召回率的同时，显著提升了稀有物种的识别准确率，为海洋生态监测提供了可行的技术方案。

2026-03-21 13:38:23 342

原创什么是OpenClaw

它们是同一个产品，只是名字变了。如果你看到Clawdbot、Moltbot、OpenClaw这三个名称，指的都是这个项目。

2026-03-03 14:20:24 503

原创【大作业-63】基于YOLO26的交通手势识别系统

本文档描述了一个基于PyQt5的YOLO模型推理展示GUI工具，包含两个主要页面：模型加载页面（支持模型选择、类别显示和参数设置）和检测页面（支持多种检测源选择、实时结果展示和历史记录）。该工具要求界面直观、响应快速，支持Windows系统，使用YOLO库进行推理。文档详细说明了功能需求、界面设计、交互流程、实现计划以及可能的技术风险与应对措施，最终将交付可执行脚本和使用说明文档。

2026-02-23 22:03:24 1325

原创 YOLO模型推理展示图形界面需求文档

2026-02-23 17:11:34 862

原创个人心得 powershell中使用conda

最近使用ai工具帮助编程，编程的过程中需要使用到conda虚拟环境，我直接使用有点问题，需要在powershell中激活对应的虚拟环境。

2026-02-19 21:25:26 184

原创【大作业收官-62】基于VGG的肺炎图像分类系统

本文介绍了基于VGG网络的肺炎图像分类系统实现。首先概述了VGG网络结构特点，包括其模块化设计思想（由卷积层、ReLU激活和最大池化组成的重复块结构）和VGG-11的典型架构。接着详细说明了项目实战流程：数据准备阶段强调数据集清洗和按6:2:2比例划分训练/验证/测试集；模型训练使用timm库加载预训练VGG模型，并记录了训练过程中的准确率和损失变化曲线；最后通过test.py脚本对训练好的模型进行验证。项目完整展示了从理论到实践的深度学习应用过程，特别针对医学图像分类任务提供了可复现的实现方案。

2026-01-17 11:59:11 740

原创侧扫声纳图像

之前看到侧扫声纳的图像，实在是不太直观，我不明白为啥中间是黑的，大概原理是声音在传播的时候是需要时间的，中间那个部分相当于是t为0的时刻，后面黄色的部分表示的是后面的时刻所接收到的声音信号的强度。

2025-12-19 18:29:18 604

原创智能标注工具X-AnyLabeling使用指南 02-用户手册

《X-AnyLabeling智能标注工具使用手册》摘要本手册详细介绍了X-AnyLabeling智能标注工具的各项功能和使用方法。主要内容包括：文件管理（数据导入/删除/保存）、对象操作（创建/编辑）、视图设置、多种标签格式的导入导出（YOLO/VOC/COCO等）、工具栏功能（数据统计/标签管理）、帮助及语言设置、用户配置（快捷键/标签颜色）、多种标注任务支持（分类/检测/分割/OCR等）、模型管理和高级功能。手册提供了从基础操作到高级应用的完整指导，包含快捷键操作、自动保存设置、标签文件格式说明等实用

2025-12-18 16:57:44 1265

原创智能标注工具X-AnyLabeling使用指南 01-软件安装

摘要 X-AnyLabeling是一款支持AI辅助的智能标注工具，适用于计算机视觉任务。本文介绍了其安装方法，包括：提供pip安装和Git源码安装两种方式详细说明了使用Miniconda或venv创建虚拟环境的步骤区分了CPU和GPU版本（CUDA 11.x/12.x）的安装命令介绍了开发者模式安装及常用命令行参数支持高级功能如远程推理、视频目标追踪等（需Git克隆方式安装）该工具特别适合离线环境下的专业领域AI模型构建，如海洋生物识别等特殊场景。

2025-12-18 16:48:47 1439

原创 Fast Livo2配置指南-软件篇

文章摘要本文介绍了实时3D重建任务的技术方案配置指南。作者通过分析B站两个3D重建案例（水下考古和大明湖场景），确定了使用激光扫描仪+GPS+专业处理软件LCC Studio的技术路线。详细讲解了坐标系转换原理，并提供了Ubuntu 24.04系统的安装配置方法，包括分区方案、软件源更换、终端优化等。特别针对Ubuntu 24.04安装ROS1的问题，给出了强制安装脚本和清理脚本的具体代码。全文为实时SLAM重建任务提供了完整的技术实现路径。

2025-12-12 16:47:36 1532 1

原创 SAHI中的切片策略

SAHI库的get_sliced_prediction函数通过智能图像切片提升大图像和小目标检测效果。核心参数包括：切片尺寸控制（slice_height/width）、重叠比例（overlap_ratio）、后处理算法选择（NMS/NMM/GREEDYNMM）以及是否执行标准预测（perform_standard_pred）。该函数通过自动切片分辨率、交小比度量标准等特性优化小目标检测，同时支持结果合并与内存控制，在精度和效率间取得平衡。参数配置需根据目标大小、图像分辨率等场景特点调整，如小目标检测建议使

2025-10-19 16:00:00 598

原创目标检测中的后处理方式 nms和nmm

本文介绍了目标检测中的三种后处理算法：NMS、NMM和GREEDYNMM。NMS通过保留最高置信度框并删除重叠框来消除冗余；NMM将重叠框分组后合并；GREEDYNMM则采用贪婪策略逐对合并重叠框。分析表明，GREEDYNMM通过合并而非删除的方式处理重叠目标，能更好地应对目标堆叠场景，是遥感等密集目标检测任务中的最优选择。

2025-10-19 15:57:07 717

原创 GMT的安装和使用

本文介绍了GMT软件的安装和使用方法。首先说明了GMT有命令行版本和Python版本，推荐使用Python版本便于熟悉。详细记录了Windows系统下GMT的安装步骤，包括环境变量配置和验证方法。同时介绍了PyGMT的安装流程，包括创建Python 3.11虚拟环境、通过conda或pip两种方式安装，并提供了测试脚本验证安装是否成功。文中还推荐了GMT中文社区作为学习资源。安装完成后，用户即可开始使用GMT进行地形图绘制等开发工作。

2025-10-09 11:11:02 871

原创【大作业-22】手把手教你用deeplab进行视杯视盘分割

本文介绍了使用DeepLabV3和DeepLabV3+进行眼底图像视杯视盘分割的方法，用于青光眼诊断。通过空洞卷积和空间金字塔池化等技术，模型能精确分割视盘和视杯区域，计算杯盘比（CDR）作为诊断指标。实验采用ResNet18轻量化主干网络，评估指标包括mIoU和mAcc，结果显示模型能有效分割眼底图像中的关键结构。该方法为青光眼等眼病的自动化诊断提供了可靠工具，可辅助医生提高诊断效率和准确性。

2025-09-30 22:12:26 1148

原创【大作业-31】基于改进yolo11的摔倒检测系统（数据集+模型+改进+图形化界面）

本文介绍了一个基于改进YOLOv11的摔倒检测系统，包含完整的数据集、模型优化方案和图形化界面。系统在YOLOv11的基础上引入了CBAM（卷积注意力模块）进行模型改进，通过通道注意力与空间注意力机制增强关键特征提取能力。项目提供了详细的环境配置指南（包括PyTorch和CUDA版本选择）和模型改进流程说明，支持多种YOLO版本对比。实验结果表明，该系统能有效检测摔倒行为，适用于安防监控等场景。资源包可通过视频置顶评论获取，包含完整代码和训练好的模型权重。

2025-09-30 22:04:12 1139

原创【大作业-30】基于改进yolo11的垃圾检测系统（数据集+模型+改进+图形化界面）

本文介绍了一种基于改进YOLOv11的垃圾检测系统，包含数据集、模型优化方法和图形化界面实现。系统通过两种方式改进模型：一是添加注意力机制（SE模块和CBAM模块）提升检测精度，二是采用轻量化卷积降低计算量。文章详细说明了环境配置步骤和模型改进流程，包括模块添加、代码修改和配置文件调整。实验结果表明，改进后的系统能有效提高垃圾检测的准确率和速度，并提供了直观的图形界面和Web界面展示检测效果。

2025-09-30 22:02:06 1556

原创【大作业-29】基于yolo11的抽烟检测系统（数据集+模型+图形化界面）

本文介绍了一个基于YOLOv11的抽烟检测系统，包含完整的数据集、模型和图形化界面。系统使用2000张抽烟图像训练，支持YOLOv5/v8/v11等多种模型。文章详细讲解了环境配置（PyTorch+Miniconda）、本地训练流程（数据集路径修改、GPU设置）、模型测试方法以及图形化界面的使用（支持图片/视频检测）。系统还提供了Web版Demo（基于Gradio）和服务器训练指南（推荐蓝耘GPU云平台）。完整代码和效果展示可通过CSDN博客和B站视频获取。

2025-09-30 22:00:40 1322 1

原创【大作业-28】基于yolo11的海洋生物检测与计数系统（海参、海胆、扇贝、海星）

本文介绍了一个基于YOLOv11的海底生物检测与计数系统，能够识别海参、海胆、扇贝和海星4类海洋生物。系统使用8000张真实海底图像训练，支持YOLOv5/v8/v11多种模型。文章详细讲解了环境配置（Python 3.8+Pytorch）、本地训练流程（数据集路径设置、GPU训练选项）、模型测试方法，并提供了图形化界面（PySide6开发）和Web界面（Gradio开发）两种使用方式。系统可实现图像/视频的检测功能，界面支持参数调节（置信度、IOU阈值等），训练结果保存在runs目录下。作者还推荐了蓝耘G

2025-09-30 21:59:26 1387

原创【大作业-27】Unet系列模型在自己医学数据集上的使用（unet、unet++、r2net、attention unet以及unet的改进）

本文介绍了U-Net及其改进模型在医学图像分割中的应用，特别针对脑肿瘤分割任务。原始U-Net通过编码器-解码器结构和跳跃连接实现了精确分割，但存在性能限制。作者提出两种改进方案：1）将编码器替换为Reserat5050预训练网络，利用其残差连接增强特征提取；2）使用VGG16作为编码 illustrators。通过实验对比，改进后的模型在复杂医学数据集上表现更优。文章还详细介绍了UNet++、R2UNet和Attention UNet等变体，提供了完整的-码实现，为医学研究者使用深度学习进行图像分割提供了

2025-09-30 21:52:18 1500

原创【大作业-26】使用yolo11进行的肺结节检测（Luna2016）

【摘要】本项目基于YOLOv11模型开发了肺结节检测系统，针对LUNA2016数据集中的42类肺结节进行训练和测试。系统通过PySide6构建了图形化界面，支持图像和视频检测功能。项目详细介绍了环境配置、模型训练（本地与GPU服务器）、性能测试及可视化界面的实现过程。实验结果表明，该系统能有效辅助医生进行肺结节检测，提高早期肺癌筛查效率。项目还探讨了该技术在减轻医生负担、降低漏诊率方面的临床价值，为深度学习在医学影像分析中的应用提供了实践案例。

2025-09-30 21:31:04 1226

原创【大作业-25】使用yolo11进行交通标志检测 tt100k数据集

基于YOLO11的交通标志检测系统本文介绍了一个基于YOLO11的交通标志检测系统，使用TT100K数据集（含42类交通标志）进行训练。系统提供了完整的训练、测试流程和图形化界面，支持图片/视频检测功能。文章详细说明了环境配置、模型训练、测试验证等步骤，并展示了检测效果图。相比YOLOv5和YOLOv8，YOLO11在保持高速推理的同时提高了检测精度。该系统可应用于自动驾驶、智能交通等领域，具有较高的实用价值。

2025-09-30 21:27:31 1436

原创【大作业-23】使用YOLOV9进行PCB板缺陷检测

本文介绍了使用YOLOV9进行PCB板缺陷检测的项目实践。主要内容包括：1）环境配置指南，提供镜像加速、虚拟环境创建和依赖库安装的详细命令；2）模型训练与测试过程，展示如何加载预训练模型、调整参数并评估结果；3）图形化界面开发，基于PySide6实现模型调用功能。项目背景阐述了PCB缺陷检测的重要性及YOLO算法的优势，包括高效性、精度提升和推动智能制造发展。相关工作部分梳理了近年来基于深度学习的PCB检测研究进展。该实践为工业质检领域提供了完整的解决方案参考。

2025-09-30 21:24:42 1242

原创【大作业-24】使用yolo11进行车辆检测与追踪

YOLO11是Ultralytics最新发布的高性能目标检测模型，在精度和速度上均有显著提升。本文介绍了YOLO11在车辆检测、追踪和计数任务中的应用，详细解析了其网络结构，包括主干特征提取、颈部特征融合和头部任务解码三个关键组件。文章重点讲解了创新的C3k2模块设计，该模块通过自定义卷积核提升了特征多样性和处理效率。实验表明，YOLO11在保持实时性的同时，检测精度优于前代版本，是计算机视觉入门和应用的理想选择。

2025-09-21 18:49:37 2079

原创【大作业-21】深入浅出视觉分割大模型SAM（原理解析+代码实践）

视觉分割大模型SAM解析本文深入解析了Meta公司开发的视觉分割大模型SAM(Segment Anything Model)。SAM作为计算机视觉领域的基础模型，能够通过点、框、网格点或文本等多种提示方式实现零样本分割任务。文章从原理层面剖析了SAM的三个核心组件：可提示的分割任务设计、轻量化的模型架构（包含图像编码器、提示编码器和掩码解码器）以及超大规模数据集SA-1B。与NLP领域的BERT类似，SAM通过提示工程实现强大的泛化能力，支持点、框、文本等多种交互方式，在图像分割任务中展现出卓越性能。文末

2025-09-21 18:33:12 1926

原创【大作业-20】使用YOLOv8进行动物检测

本文介绍了使用YOLOv8进行动物检测的方法。文章首先概述了深度学习在动物检测领域的应用背景和意义，包括提升生态保护效率、高准确性、数据积累分析等优势。随后介绍了近年来相关研究工作，涵盖野生动物分类、无人机检测、夜间检测等应用场景。重点讲解了YOLOv8算法的核心改进：全新视觉模型支持多任务、优化的骨干网络C2f结构、解耦头设计等创新点，并通过性能对比图展示了其在精度和速度上的优势。文章还提供了详细的实践指导，包括预训练模型获取、数据集标注和图形化界面使用等，方便读者快速实现动物检测应用。

2025-09-21 18:31:36 1351

原创【大作业-34】基于红外场景的输电线路绝缘子检测系统（数据集+模型+图形化界面）

本文介绍了基于红外场景的输电线路绝缘子检测系统，包含数据集、模型和图形化界面。系统采用YOLO11等目标检测算法，支持本地和GPU服务器训练，提供模型测试、图形化界面（PySide6开发）和Web界面（Gradio开发）功能。该系统可高效检测绝缘子缺陷，替代传统人工巡检，提升电网安全性和检测效率。资源包含完整代码、数据集和训练指南，适合电力系统智能化改造需求。

2025-09-21 18:21:46 900

原创目标检测常用标注工具-LabelImg的使用

本文介绍了目标检测标注工具LabelImg的安装与使用方法。首先详细说明了如何通过conda创建虚拟环境并安装LabelImg，然后讲解了图像数据集的准备工作，提供了中文路径处理的Python脚本。文章重点介绍了LabelImg的标注功能，包括常用快捷键的使用，并对比了YOLO、VOC和COCO三种数据格式的特点。特别针对YOLO格式的标注进行了详细说明，解释了其txt标签文件的结构和数值含义，通过具体示例展示了目标检测数据的标注规范，帮助用户快速掌握标注工具的使用方法。

2025-09-21 18:12:53 2897 1

原创 YOLO11模型指标解读-mAP、Precision、Recall

本文解读了YOLOv11模型训练后生成的各项指标图表。主要包括：labels.jpg展示数据分布特征，train_batchx.jpg显示数据增强效果，args.yaml记录训练配置参数，results.png呈现loss和mAP指标变化趋势。这些图表有助于分析模型性能，其中results.png的曲线变化趋势特别重要，可用于评估训练效果和优化方向。文章详细说明了如何解读这些可视化结果，为模型调优和论文撰写提供参考。

2025-09-21 18:02:44 1959

原创如何使用labelme标注语义分割数据集

labelme在实例分割和语义分割任务中经常用到，很多小伙伴完成ai的任务的时候，有的时候不只需要找到对应物体的边界框，对物体的整体的轮廓信息也有比较严格的要求，比如通过物体的mask来计算出对应物体的面积。所以，今天这期，我们来说一下labelme软件如何进行使用，以及根据这一期的内容来完成后面的语义分割的任务。

2025-09-20 13:37:21 2712

原创【大作业-32】基于改进UNET的肺部图像分割系统（unet、unet++、r2net、attention unet以及unet的改进）

本文介绍了一种基于改进UNET架构的肺部图像分割系统，该系统整合了UNET、UNET++、R2NET、Attention UNET等多种变体模型。研究在Featurize云服务器上完成训练，实现了高效准确的肺部区域分割，可辅助医生进行肺部疾病诊断。文章详细演示了从数据集准备到模型训练的全流程，包括云服务器环境配置、数据上传解压、模型训练等步骤。该系统通过深度学习技术提升了肺部影像分析的自动化程度和精确性，有望应用于肺癌等疾病的早期筛查和诊断。

2025-09-20 13:30:13 1516

原创【大作业-36】基于yolo11的绝缘子缺陷检测系统（数据集+模型+图形化界面）

本文介绍了基于YOLOv11的绝缘子缺陷检测系统，包含数据集、模型和图形化界面。系统可识别绝缘子、损坏绝缘子、闪络和锤子等目标，支持图像和视频检测。项目提供了详细的环境配置指南（需安装PyTorch和Miniconda）、本地训练流程（修改数据集路径后运行训练脚本）和可选GPU服务器训练方案。训练完成后可通过测试脚本验证模型指标（如mAP）。系统还包含PySide6开发的图形化界面（支持图片/视频检测）和基于Gradio的Web界面，用户可调整置信度和IoU阈值进行检测。资源包可通过视频置顶评论或博客获取。

2025-09-19 16:21:40 1725

原创【大作业-37】基于yolo11的危险驾驶行为检测系统（数据集+模型+图形化界面）

摘要：本项目基于YOLOv11开发了一套危险驾驶行为检测系统，可识别打哈欠、闭眼、抽烟、打电话等8种危险驾驶行为。系统包含完整的数据集、预训练模型和图形化界面，支持本地训练、测试以及服务器GPU训练方案。项目提供PySide6开发的桌面应用和Gradio实现的Web界面，用户可通过上传图片或视频进行实时检测。资源包中包含YOLOv5/v8/v11多版本模型对比，详细的环境配置指南和训练教程也一并提供。

2025-09-19 16:19:48 1563

原创【大作业-38】基于yolo11和yolov8的输电线路过热检测系统

摘要：本文介绍了一个基于YOLOv11和YOLOv8的输电线路过热检测系统，利用红外数据集识别输电线路过热情况。系统支持本地和GPU服务器训练，提供图形化界面和Web界面封装，可实现图像和视频的实时检测。项目包含详细的环境配置、模型训练、测试流程说明，并采用PySide6和Gradio开发用户界面，为输电线路安全监测提供智能化解决方案。

2025-09-19 16:16:54 1072

原创【大作业-35】基于红外场景的电力设备检测系统（数据集+模型+图形化界面）

本项目基于YOLO11算法开发了一套红外场景下的电力设备检测系统，可识别7类电力设备，包括230kV开关、避雷器、断路器等。系统提供完整的数据集、预训练模型和图形化界面，支持本地训练和GPU服务器训练两种模式。图形化界面采用PySide6开发，具备图片和视频检测功能，同时提供基于Gradio的Web界面。项目资源包含详细的环境配置指南、训练脚本和测试脚本，方便用户快速部署和使用。系统在红外图像上表现出良好的检测效果，为电力设备巡检提供了智能化解决方案。

2025-09-19 16:14:30 937

原创【大作业-39】基于yolo11和yolov8的遥感目标检测

本文介绍了一个基于YOLOv11和YOLOv8的遥感目标检测系统，支持15类物体的水平框检测，包括车辆、飞机、船舶等。项目提供了完整的环境配置指南和训练流程，支持本地和云服务器训练。系统包含图像/视频检测功能，并封装了PySide6图形界面和Gradio的Web界面。资源包中包含多种模型权重供比较，用户可自定义训练数据集和界面参数。该系统针对大规模遥感数据优化，实现了高效的目标检测功能。

2025-09-19 16:13:19 1190

原创【大作业-40】基于yolo11和yolov8的钢铁缺陷检测系统

本文介绍了一个基于YOLOv11和YOLOv8的钢铁表面缺陷检测系统。该系统可识别六种常见缺陷：龟裂、夹杂、斑点、凹坑表面、卷入氧化皮和划痕。项目提供了完整的环境配置指南、本地训练脚本（step1_start_train.py）、模型测试脚本（step2_start_val.py）以及升级版的PySide6图形化界面（step3_start_window_track.py）。此外还包含基于Gradio的Web界面封装（web_demo.py），支持图片和视频检测。项目资源包包含YOLOv11和YOLOv8模

2025-09-19 16:11:26 1474

原创【大作业-41】基于yolo11和yolov8的船舶检测系统

本文介绍了一个基于YOLOv11和YOLOv8的船舶检测系统，支持25类船舶识别。系统包含训练、测试和图形化界面三部分：1）使用step1_start_train.py进行模型训练，需配置数据集路径；2）通过step2_start_val.py测试模型性能；3）采用PySide6开发图形界面step3_start_window_track.py，支持图片/视频检测。项目还提供Web版demo.py，使用gradio构建交互界面，可调整置信度和IOU阈值。资源包包含训练数据、预训练模型和完整代码，适用于可见光

2025-09-19 16:09:11 1026

原创【大作业-42】基于合成孔径雷达（SAR）图像的船只检测（数据集+模型+图形化界面）

本文介绍了一个基于合成孔径雷达(SAR)图像的船只检测系统，包含数据集、模型和图形化界面。系统使用YOLO模型进行训练，提供了3万张SAR图像数据集，仅包含ship类别。项目详细说明了环境配置、本地训练、GPU服务器训练(可选)、模型测试等步骤，并展示了升级后的PySide6图形界面，支持图片和视频检测功能。此外，还提供了基于Gradio的Web界面实现。系统通过调整置信度和IOU阈值优化检测效果，适用于全天候遥感监测场景。

2025-09-19 16:03:30 1727