mingo_敏-CSDN博客

转载 PyTorch Cookbook（常用代码段整理合集）

本文代码基于PyTorch 1.0版本，需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...

2019-04-27 15:58:29 3325 4

原创 Linux常见命令汇总

2018-12-06 11:08:08 1843 11

原创本博客目录及版权申明

【C++ Primer 学习笔记】系列：第一部分基本语言第二部分容器和算法【C++ Primer 学习笔记】：容器和算法之【顺序容器】【C++ Primer 学习笔记】：容器和算法之【关联容器】【C++ Primer 学习笔记】：容器和算法之【泛型算法】第三部分类和数据抽象第四部分面向对象编程与泛型算法第五部分高级主题【Java： 23种设计模式】系列 Java： 23

2015-11-25 17:37:30 1731 1

原创深度学习论文: MM-LLMs: Recent Advances in MultiModal Large Language Models

传统多模态模型从零训练，算力成本高昂，且不具备大语言模型（LLM）的零样本泛化、上下文学习（ICL）、思维链（CoT）与指令跟随等涌现能力，训练流程也仅限于预训练阶段，缺少指令微调。多模态大语言模型（MM-LLMs）复用已有单模态基座模型（视觉/音频编码器与LLM），以LLM为认知核心，通过轻量跨模态对齐框架融合多模态信息，在显著降低训练开销的同时，完整继承LLM的推理与生成优势。早期（理解为主）

2026-07-03 16:39:03 99

原创 Google官方12种AI Agent设计模式全解析｜生产环境选型指南（2026最新）

Google Cloud发布12种AI Agent设计模式，覆盖单Agent、多Agent协作、循环迭代等全场景，帮助开发者高效构建智能体系统。核心建议包括：优先单Agent简化架构，固定流程用顺序/并行模式，动态任务采用协调器或分层拆解，高风险场景必须人工介入，并警惕Swarm模式的高成本与失控风险。提供选型决策流程图和简化口诀，强调克制设计、循环上限和上下文优化等落地原则。适用于LangChain等框架开发者，平衡性能、成本与复杂性。

2026-07-03 10:56:55 8

原创 Multi-Agent多智能体完整详解：架构、协作模式、落地选型与实战步骤

摘要：多智能体（Multi-Agent）系统通过角色分工与协同配合解决单智能体难以处理的复杂任务，突破能力边界并提升效率。其核心要素包括角色定义、通信机制、协作模式等，并支持中心化管理、对等协作等多种协作方式。实际应用中，多智能体可高效完成如市场调研报告等长链路任务，但面临成本高、调试复杂等挑战。主流开源框架如AutoGen、CrewAI等为开发提供支持。未来，多智能体将成为企业级AI系统的关键发展方向，需平衡效率、成本与可控性以实现最佳落地效果。

2026-07-02 16:53:51 441

原创 Workflow 工作流与 Agent 智能体深度对比：选型场景、架构原理与混合落地方案

文章摘要： Workflow和Agent是大模型落地的两种主流任务编排方案，二者存在本质区别：Workflow是规则驱动的固定流程执行，适合标准化任务；Agent则是目标驱动的自主决策系统，擅长处理复杂多变场景。文章通过多维度对比表格、架构模式解析和实战案例（市场调研报告），清晰划分了两者的适用边界：Workflow适用于流程固定、成本敏感的场景，Agent更适合需要灵活推理的开放任务。最终提出生产环境最佳实践——混合架构方案，建议用Workflow保障系统稳定性，用Agent提升智能上限，二者协同实现商用

2026-07-02 15:52:56 470

原创智能体设计范式：Reflection

摘要：Reflection（反思）是一种智能体设计范式，通过让模型在生成初步答案后进行自我评价和修正，提升回答质量。其核心流程包括初始回答生成、反思批评和改进答案三个步骤，可迭代进行。该方法适用于对准确性要求高的场景（如法律、医学），能减少事实错误和逻辑漏洞，但会增加计算成本且可能无法彻底纠正错误。文中提供了Python实现示例，展示了如何通过多轮"生成-反思-改进"循环优化答案质量。

2026-07-01 20:07:47 252

原创智能体设计范式：Plan-and-Solve

认为直接单步推理容易遗漏或出错，更好的做法是先让模型生成一个完成任务的步骤计划，然后逐步执行该计划，每步可以调用工具，最后汇总结果得到最终答案。

2026-07-01 20:01:27 173

原创智能体设计范式：ReAct

ReAct（Reason+Act）是一种智能体范式，通过交替进行推理和行动解决复杂问题。其核心是将推理步骤与外部工具调用结合：模型先进行思考（Thought），当需要外部信息时调用工具（Action），根据返回结果（Observation）继续推理，循环直至得出最终答案。该方法的优势在于推理透明、可调用工具突破模型限制，但也存在延迟高、格式解析易错等缺点。文中提供了Python实现示例，包含搜索和计算工具，演示了如何通过多步交互获取"2022年世界杯冠军教练"这类需实时信息的问题答案。

2026-07-01 18:10:21 189

原创文本分词算法：Byte-Pair Encoding (BPE)、WordPiece 和 SentencePiece

本文介绍了大语言模型中三种主流的子词分词技术。首先阐述了分词的必要性，即将文本转换为数字序列以便模型处理，并指出现代模型普遍采用子词分词算法来平衡词汇表规模和语义表达能力。随后详细讲解了三种主流算法：1）Byte-Pair Encoding（BPE），通过迭代合并高频字符对构建词汇表；2）WordPiece，基于最大似然准则选择合并对；3）SentencePiece的Unigram语言模型方法，直接从原始字节流学习子词概率分布。每种算法都配有原理说明、具体示例和简化Python实现，展现了子词分词如何帮助模

2026-06-30 21:14:07 449

原创 LangChain和LangGraph的概述以及两者区别

LangChain与LangGraph对比解析 LangChain是模块化的高层次开发框架，提供标准化组件和LCEL表达式语言，适合构建线性流程的RAG应用和快速原型开发。而LangGraph是底层工作流编排引擎，采用图结构（节点+条件边）建模复杂状态流，支持循环/分支/人工介入等场景，具备持久化执行、状态回溯等企业级特性，适合多智能体协作和长时运行任务。两者定位互补：LangChain侧重易用性和标准化，LangGraph强调复杂流程控制，在实际项目中可协同使用。选择取决于项目复杂度——简单线性场景用La

2026-06-29 20:11:56 417

原创 YOLO + Qwen3-VL-Seg 深度诊断：双引擎协同完成AI质检

本文提出了一种创新的工业质检双引擎架构，结合YOLO实时检测与Qwen3-VL-Seg精细化诊断，有效解决了传统检测方法中检测与诊断割裂的问题。YOLO部署在边缘端实现高效定位（3.2MB模型，<10ms延迟），Qwen3-VL-Seg在云端完成语义级缺陷分析（仅17M参数的解码器实现像素级分割）。该方案通过6步闭环流程，从实时感知到工艺反哺，显著提升了工业质检的准确性和可解释性，为智能制造提供了从"发现"到"解决"的完整技术路径。

2026-06-26 17:46:59 68 1

原创深度学习论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

本研究采用两阶段训练方案，旨在同步强化模型的跨模态理解能力与面向密集预测任务的细粒度感知能力，确保推理逻辑与空间表征的协同优化。第一阶段：分割导向的领域适配本阶段核心目标为构建稳健的指代分割能力，其基础是预训练视觉‑语言主干已具备的物体定位能力。具体而言，我们将主干网络从自然语言指令中提取的空间先验，迁移至像素级密集预测任务。在此框架下，通过LoRA对语言模型进行参数高效适配，同时联合训练视觉编码器与掩码解码器，统一于指令跟随体系。

2026-06-25 20:23:19 251

原创深度学习论文: YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

本文提出YOLOE-26，一种融合YOLO26架构与YOLOE开放词汇学习范式的实时开放词汇实例分割框架。该模型保留了YOLO系列的高效性和端到端设计，通过引入目标嵌入头替代固定类别分类，将识别任务转化为语义相似度匹配。关键创新包括：可重参数化的区域-文本对齐模块（实现零开销文本提示）、语义激活视觉提示编码器（支持示例引导分割）和惰性区域提示对比机制（无提示推理）。实验表明，该框架在不同规模模型和提示条件下均展现出良好的精度-效率平衡，完全兼容现有YOLO生态，为动态场景中的实时开放词汇分割提供了实用解决方

2026-06-01 16:31:55 81

原创深度学习论文: A novel YOLO26-MoE optimized by an LLM agent for insulator fault detection considering UAV

本文提出了一种新型YOLO26-MoE模型，通过将稀疏混合专家(MoE)架构嵌入YOLO26检测头，并采用大语言模型智能体(LLM Agent)进行自动超参数调优，显著提升了无人机图像中绝缘子缺陷检测性能。该方法在P3分支引入MoE模块，通过专家路由机制自适应处理不同特征的绝缘子缺陷，同时设计辅助平衡损失防止路由崩溃。实验结果表明，该模型在mAP@0.5和mAP@0.5:0.95指标上分别达到0.9900和0.9515，优于现有YOLO变体，且参数量和计算量适中。LLM Agent与Optuna的结合实现了

2026-05-26 16:37:31 84

原创目标检测mAP指标：与生产级精确率/漏检率/误检率的相关性及改造方案

本文探讨目标检测模型评估指标mAP与生产环境关键指标（精确率、漏检率、误检率）的脱节问题。mAP作为综合指标无法直接反映生产场景的实际表现，常导致"实验室高分、现场效果差"的困境。文章提出5个改造方案：1）限定置信度区间的受限mAP；2）引入业务加权的加权mAP；3）按场景拆分的场景mAP；4）重构指标逻辑的业务等价mAP；5）统一评估规则。通过定制化改造，使mAP能准确反映生产环境中的误检、漏检等关键指标表现，实现模型评估与业务需求的对齐。最终建议采用"受限mAP+多指标联合

2026-05-14 08:58:32 505

原创深度学习论文: Per-Pixel Classification is Not All You Need for Semantic Segmentation

本文提出MaskFormer模型，将语义分割任务转化为预测一系列掩码及其全局类别，统一了语义分割、实例分割和全景分割任务。模型包含像素级模块、Transformer模块和分割模块三部分，通过并行预测N个概率-掩码对实现分割。实验表明，MaskFormer在ADE20K、Cityscapes等数据集上达到SOTA性能，尤其在全景分割任务中表现优异。该方法突破了传统逐像素分类的局限，为分割任务提供了新的统一框架。

2026-05-13 17:03:45 423

原创深度学习论文: MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

本文提出MatchED模块，用于实现端到端的清晰边缘检测。该模块通过匹配式监督机制，解决了传统方法依赖不可微后处理的问题。MatchED仅引入21K参数量，可嵌入任意边缘检测模型，利用空间距离和置信度进行预测边缘与真值边缘的精准匹配。实验表明，该模块显著提升了模型性能：清晰度指标提升2-4倍，边缘精细度指标提升20%-35%，首次实现了超越传统后处理的端到端SOTA效果。

2026-05-12 10:31:47 82

原创深度学习论文: ICPR 2026 Competition on Low-Resolution License Plate Recognition

自动车牌识别（ALPR）系统在交通执法、电子收费等场景中应用广泛。在标准成像条件下，车牌检测与识别性能已趋于饱和。然而，在真实监控环境中，由于摄像头距离远、硬件限制以及强压缩，车牌图像常常以低分辨率（Low-Resolution, LR）获取，字符模糊、失真，识别难度显著增加。尽管实际需求迫切，低分辨率车牌识别（LRLPR）仍是一个极具挑战且研究不足的问题，现有最先进方法在真实低质量图像上的识别率也仅为50-60%。为了推动该领域发展，本文在ICPR 2026上组织了首届低分辨率车牌识别竞赛。

2026-05-11 17:05:35 485

原创深度学习论文: YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World 方法通过视觉-语言建模技术，并结合大规模数据集的预训练过程，成功为YOLO系列模型赋予了开放词汇检测能力。具体而言，本文设计了一种全新的可重参数化视觉-语言路径聚合网络（RepVL-PAN），同时提出区域-文本对比损失函数，以此促进视觉信息与语言信息之间的深度交互与融合，进一步提升模型对跨模态信息的利用效率。YOLO-World 能够以零样本检测方式，高效识别各类不同类型的目标，在检测效率与泛化能力上均表现突出。

2026-04-02 13:35:19 262

原创深度学习论文: Efficient Universal Perception Encoder

本文提出了一种高效通用感知编码器(EUPE)，通过创新的三阶段知识蒸馏流程实现小型化与通用性平衡。首先训练大型代理模型(19亿参数)从多个领域专家(PEcore、DINOv3、PElang)中吸收通用表示能力；然后将其蒸馏至目标高效编码器；最后通过多分辨率微调增强适应性。实验表明，EUPE在相同模型规模下性能优于领域专用模型和传统聚合方法。该方法采用简洁的损失函数设计(余弦相似度+平滑L1)和特征归一化策略，使用与DINOv3相同的数据集(LVD-1689M+ImageNet1k)进行训练。研究团队将开源完

2026-03-31 14:45:23 154

原创深度学习论文: CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

CPUBone: 面向低并行CPU设备的高效视觉主干网络设计本文针对CPU设备并行计算能力有限的特点，提出了CPUBone视觉主干网络。通过分析分组卷积(分组数设为2)和缩小卷积核尺寸(3×3→2×2)对计算效率的影响，发现这些改进能显著降低MAC运算量而不损害硬件效率。基于此，CPUBone采用改进的MBConv模块：通道数<256时使用融合分组MBConv，≥256时使用非融合分组MBConv，并在深层网络使用2×2卷积核。实验表明，CPUBone系列在多种CPU上实现了最优的速度-精度权衡，并

2026-03-31 14:15:47 78

原创深度学习论文: PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications

实时设备端分割技术对于智能眼镜、物联网设备等延迟敏感型及隐私保护导向类应用具有关键意义。本文提出轻量化可提示视觉分割模型PicoSAM2，其参数规模仅130万、乘累加运算量为3.36亿次，专门针对边缘端及传感器内执行场景（含索尼IMX500）进行优化。该模型以深度可分离U-Net为基础架构，融合知识蒸馏与定点提示编码技术，依托Segment Anything Model 2（SAM2）完成能力迁移与学习。。

2026-03-31 09:09:49 102

原创深度学习论文: PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation

本文提出PicoSAM3，一种专为资源受限边缘设备设计的实时提示驱动分割模型。针对传统Transformer架构的高计算开销问题，PicoSAM3采用全卷积U型网络结构，通过中心裁剪实现隐式提示编码，避免了额外提示输入通道的需求。模型引入深度可分离卷积、空洞卷积和通道注意力模块等轻量化设计，结合两阶段知识蒸馏流程从SAM3迁移分割能力。实验表明，量化后的PicoSAM3在仅1.37M参数下实现8.6%的IoU提升，成功部署于索尼IMX500智能传感器，验证了其在严苛边缘场景下的高效分割能力。该研究为提示驱动

2026-03-30 15:11:09 258

原创 YOLO26 增加 LoRA 支持（参数高效微调 PEFT）

LoRA（低秩适应）是一种高效微调大模型的技术，它通过冻结主干网络参数，仅训练少量低秩矩阵（通常1%-2%的参数）来实现模型适配。核心原理是将原始权重矩阵分解为两个小矩阵的乘积（A和B），前向传播时叠加原始输出与LoRA增量。LoRA具有训练速度快、显存占用低、避免过拟合等优势，且推理时可无缝融合回原模型，不增加计算延迟。代码实现包含LoRA卷积层和线性层的封装，支持自动注入到YOLO26模型，并提供权重合并功能，使推理性能与原生模型一致。

2026-03-26 17:22:21 261

原创深度学习论文: YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

YOLO-Master提出了一种创新的实时目标检测框架，通过引入实例条件自适应计算机制解决了传统YOLO架构在算力分配上的失衡问题。该模型核心采用高效稀疏混合专家(ES-MoE)模块，结合动态路由网络实现专家互补学习与稀疏激活。关键技术包括：1)分阶段路由策略，训练时软Top-K保障梯度回传，推理时硬Top-K提升效率；2)多尺度感受野专家设计；3)负载均衡监督策略。实验表明，在MS COCO数据集上，YOLO-Master以1.62ms延迟实现42.4% AP，较YOLOv13-N提升0.8% mAP并加

2026-03-26 15:24:39 156

原创深度学习论文: C-RADIOv4 (Tech Report)

本文介绍了C-RADIOv4模型的技术改进，该模型通过从SigLIP2、DINOv3和SAM3三个先进视觉基础模型中蒸馏知识来构建聚合式模型。主要创新包括：1）采用随机分辨率训练提升模型适应性；2）引入平移等变损失和MESA技术抑制固定模式噪声；3）使用DAMP增强权重鲁棒性；4）改进摘要损失平衡不同教师特征分布。实验表明，C-RADIOv4在保持较小参数量下展现出强大的多分辨率适应能力和竞争力性能，同时继承了DINOv3的语义分割能力和SigLIP2的文本对齐能力。

2026-03-17 15:13:06 169

原创深度学习论文: On-Device Large Language Models: A Survey of Model Compression and System Optimization

大型语言模型正越来越多地部署于终端与边缘设备，在此类场景中，内存容量、带宽、延迟与隐私需求主导着系统行为。本综述系统化梳理了从算法到系统的端侧技术栈。在模型层面，本文提出清晰的分类体系，涵盖量化、剪枝、知识蒸馏、低秩适配及混合流程，阐明代表性方法的定位与组合方式。在系统层面，本文将上述技术与推理框架、编译器与运行时优化、内核融合及KV缓存显式管理相衔接。本文进一步提出统一的ALEM评估协议，即精度、延迟、能耗与内存，并在1B至4B参数的代表性模型上实例化，揭示实际权衡：优先应用量化以优化内存与首词延迟；

2026-03-16 16:29:32 96

原创深度学习论文: One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection

本文的核心目标是构建一款通用异常检测框架，无需在目标数据集上做任何训练或微调，就能在不同领域中准确识别异常图像并分割异常区域。该框架需适配两种场景：零样本场景下，训练阶段完全不接触目标域数据，仍能完成图像级异常分类和像素级异常分割；少样本场景下，每个目标类别仅提供 1-4 张正常图像作为参考，就能实现精准检测。简单来说，就是让模型 “见过少量正常样本，或完全没见过目标域样本”，也能快速适配新场景，识别出与正常情况不符的异常。

2026-01-28 10:19:51 134

原创深度学习论文: No time to train! Training-Free Reference-Based Instance Segmentation

图像分割模型的性能长期受制于大规模标注数据的高成本。分割一切模型（SAM）虽以可提示、语义无关的范式缓解了这一问题，但仍需人工提示或复杂的领域规则，难以适配新图像。为此，本研究聚焦少参考图像的目标分割任务，借助基础模型的语义先验识别参考与目标图像的区域对应关系，自动生成实例级分割掩码。实例分割面临目标遮挡、尺度变化等挑战，在不大量微调的前提下整合 DINOv2 等骨干网络的能力，更是亟待突破的难题。

2026-01-27 14:53:16 95

原创深度学习论文: AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection

工业异常检测（Industrial Anomaly Detection, IAD）的难点在于正常参考样本稀缺，且多数缺陷具有细微化、局部化的特征。单阶段视觉 - 语言模型（Vision-Language Models, VLMs）往往会忽略微小异常，且缺乏与标准正常模式进行显式对比的机制。本文提出一种工具驱动的智能体框架AgentIAD，以实现多阶段视觉检测。

2025-12-23 09:58:23 238

原创 C++字符串选型：string与const char* 性能对比及场景选择

摘要：本文分析了C++中string与const char*的性能差异及适用场景。const char*在传递字符串字面量时性能更优，无额外构造开销；而string对象传递时二者性能相当。const char*兼容性强但需手动管理内存，string则更安全便捷。建议根据场景选择：追求性能或兼容C代码时用const char*，日常开发优先使用string。合理结合二者特性可实现高效稳健的字符串处理。

2025-12-17 16:04:11 574

原创深度学习论文: ChangeDINO: DINOv3-Driven Building Change Detection in Optical Remote Sensing Imagery

遥感变化检测旨在通过配准后的双时相影像识别地表变化。然而，现有许多基于深度学习的方法仅依赖变化图标注，未能充分利用未变化区域的语义信息，导致其在光照变化、倾斜视角及标注稀缺等场景下的鲁棒性受限。本文提出ChangeDINO，一种用于光学建筑物变化检测的端到端多尺度孪生网络框架。该模型将轻量级主干网络的特征流与冻结DINOv3模型传递的语义特征相融合，即使在小规模数据集上也能生成语义与上下文丰富的特征金字塔。

2025-12-10 12:58:19 168

原创 C++17 新增库特性的实例

这些特性使C++17成为更现代化、更安全、更高效的版本，特别在类型安全、性能优化和代码简洁性方面有显著改进。表示一个可能存在的值，用于处理可能失败的操作，避免使用特殊值（如-1、nullptr）表示空值。是一个类型安全的联合体，可以存储多种类型中的一种。是一个字符串的不可变视图，不拥有数据，避免不必要的字符串拷贝，提高性能。是一个类型安全的容器，可以存储任意类型的值，类似于动态类型语言的变量。表示一个字节的数据，专门用于位操作，避免了与字符类型的混淆。的并行版本，不保证计算顺序，对满足结合律的操作更高效。

2025-12-02 14:27:35 824

原创深度学习论文: Real-Time Object Detection Meets DINOv3

本文提出DEIMv2，一种融合DINOv3特征的实时目标检测框架。通过引入空间调谐适配器(STA)将DINOv3单尺度输出转换为多尺度特征，并针对不同规模模型采用差异化设计：X/L/M/S版本使用DINOv3骨干网络，Nano/Atto等超轻量版本采用剪枝优化的HGNetv2。实验表明，DEIMv2-X仅5030万参数即达57.8 AP，超越同规模模型；DEIMv2-S以971万参数首次突破千万级以下50 AP；DEIMv2-Pico仅150万参数即达38.5 AP，性能媲美参数量更大的YOLOv10-Na

2025-12-02 10:56:09 320

原创 OpenCV中Blob检测的全面解析与实战技巧

本文详细介绍了OpenCV中的Blob检测技术，重点解析了SimpleBlobDetector函数的使用方法。文章首先解释了Blob检测的基本概念，然后详细列出了OpenCV中Blob分析的各种过滤方式和对应参数。通过完整示例代码演示了从图像加载、参数设置到检测结果绘制的全过程。特别强调了使用过程中的三个关键技巧：参数检查机制、背景颜色要求（默认需白色背景）和默认参数值参考。这些内容帮助开发者避免常见错误，提高检测效率。文章为计算机视觉开发者提供了实用的Blob检测指导，涵盖了从基础概念到实际应用的完整知识

2025-12-01 08:38:10 1408

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

CUDA并行程序设计 GPU编程指南

爬虫爬取网易汽车车型库【Java代码】

OpenCV3_CVPR_2015.pptx

linux下安装Anaconda3+pytorch+tensorboardX依赖包

Quartz 示例代码

训练好用于车牌分割的神经网络

OpenVINO视觉加速库依赖包

java反射示例代码

CUDA C编程权威指南

Java 核心技术（第八版）高清电子书PDF和代码

Java反射机制代码

Java爬虫爬取网易汽车车型库

空空如也