blanokvaffy-CSDN博客

原创 D-FINE-SEG: 将D-FINE改为实例分割模型 update1

本文介绍了将D-FINE模型改进为实例分割模型D-FINE-SEG的过程。作者在之前实现的基础上，补充了COCO数据集上的测试代码和MASK分数评估功能。主要内容包括对postprocessor.py文件的修改，添加了处理mask预测的相关方法：通过_gather_masks收集预测mask，使用_resize_masks_to_input将mask调整至输入尺寸，以及_resize_masks_to_orig将mask还原至原始图像尺寸。这些改进使模型能够输出实例分割结果，并为后续在COCO数据集上的性能

2026-04-07 10:41:58 273

原创 UniPCB：给 PCB 质检做一套真正统一的多模态基准

本文提出UniPCB，首个面向开放式PCB质量检测的统一视觉语言基准，并开发了专用模型PCB-GPT。针对现有PCB数据集碎片化、标准不统一的问题，UniPCB整合了6581张图像和23359组双语QA对，建立了统一的缺陷分类体系和任务框架，涵盖三种场景14类子任务。PCB-GPT基于Qwen2.5-VL-7B-Instruct，采用三阶段课程学习：概念对齐、指令微调和强化学习优化。实验表明，PCB-GPT在UniPCB上平均得分67.3，定位F1达51.1，显著优于开源模型，且在跨数据集测试中展现出良好泛

2026-03-25 15:59:13 332 1

原创 AD-Copilot 论文解读：把“大模型看图”升级为“对照检验”的工业异常检测助手

本文提出AD-Copilot，一个面向工业异常检测的视觉语言助手，通过视觉上下文比较解决现有方法的不足。针对工业场景中多模态大模型表现不佳的问题，作者指出核心原因在于缺乏工业数据和比较能力不足。为此，论文提出三个关键贡献：构建Chat-AD数据集，设计Comparison Encoder显式建模图像差异，以及采用多阶段训练策略。实验表明，该方法在MMAD基准上达到82.29%准确率，定位任务提升3.35倍，并展现出良好的泛化能力。消融实验验证了比较模块的有效性，表明其成功源于高质量比较数据与显式比较模块的协

2026-03-25 15:13:24 233

原创 DitHub：把目标检测做成“Git 分支管理”

摘要：论文《DitHub》提出了一种模块化增量学习框架，用于开放词表目标检测。传统方法将新知识压缩到同一套权重中，容易导致知识干扰和管理困难。DitHub借鉴版本控制思想，将不同类别/任务的知识拆分为独立模块（类似Git分支），支持按需组合。采用LoRA轻量化适配，通过两阶段训练（Warmup+Specialization）提升稳定性。实验表明，该方法在ODinW-13和新建的ODinW-O基准上均达到SOTA，兼顾增量学习与零样本能力。其核心价值在于模块化设计，支持灵活的知识增删改查，为持续学习提供了可

2026-03-22 21:03:47 336

原创 SAMSnake：让实例分割“沿着轮廓走”，而不是“往像素里涂”

SAMSnake：基于轮廓的实例分割新方法这篇论文提出了一种新颖的实例分割方法SAMSnake，通过将目标表示为闭合轮廓曲线而非传统像素级mask。该方法采用三段式流程：首先用检测器定位目标，然后借助EfficientSAM生成初始轮廓，最后通过归一化偏移和动态匹配损失迭代优化轮廓形状。实验表明，该方法在Cityscapes、COCO等数据集上达到SOTA水平，特别擅长处理边界清晰度和复杂形状。相比传统方法，SAMSnake的优势在于边界更自然、计算更高效，且模块化设计便于下游任务扩展。这项研究为实例分割

2026-03-19 13:12:43 250

原创 EFDTR:用“傅里叶变换”做实例分割？

EFDTR提出了一种基于椭圆傅里叶描述子(EFD)的实例分割新方法。该方法通过两阶段框架：第一阶段用EFD参数捕捉目标整体形状，第二阶段细化轮廓点生成精确多边形。其创新点在于将轮廓匹配问题转换到频域相位空间，避免了传统多边形方法中顶点对齐的困难。实验显示EFDTR在COCO数据集上达到43.6 AP(ResNet-50)，超越了现有多边形方法。该方法特别适合需要结构化轮廓输出的任务，为实例分割提供了更几何化的解决思路。

2026-03-19 10:04:00 179

原创 Poly-DETR：用多边形检测 Transformer 重新定义实例分割

Poly-DETR提出了一种基于Transformer的多边形检测方法，将实例分割重新定义为稀疏顶点回归问题。该方法采用极坐标表示多边形，通过Polar Deformable Attention机制在圆周上采样特征，解决了传统密集掩码预测的计算冗余问题。核心创新包括极坐标参数化表示、位置感知训练策略和动态采样机制，在保持高精度的同时显著提升了计算效率。实验表明，Poly-DETR在Cityscapes等数据集上实现了实时高性能实例分割，为密集预测任务提供了新的解决方案。

2026-03-13 21:31:57 560

原创工业缺陷检测的新范式：2025-2026年零样本检测技术全景扫描

摘要：工业视觉领域面临缺陷样本稀缺、标注成本高等痛点，零样本缺陷检测（Zero-Shot Defect Detection）成为研究热点。2025-2026年的技术进展主要分为三类：1）视觉-语言模型（VLM）路线，如CLIP适配器跨域对齐热成像数据；2）数字孪生路线，通过CAD模型生成理想状态对比检测缺陷；3）基于CLIP的提示学习，如Crane模型通过上下文提示提升泛化能力。尽管实验室效果显著（如IoU达70%），但在真实工业场景（如MIRAD数据集）中性能平均下降29.78%，凸显跨域泛化仍是挑战。

2026-03-13 20:38:29 841

原创目标检测原理简介

目标检测是一类计算机视觉任务，简单来说，目标检测可被定义为在计算机中输入一张图像，计算机需要找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，如图一所示。目标检测是计算机视觉领域的核心问题之一，相较于最原始的将整张图片分类为某一类别，目标检测不光可以感知图像中物体的类别，还可以提取感兴趣物体在图像中的位置信息，并将图片区分为前景和背景。随着科技的进步，目标检测算法广泛的利用深度学习作为基础，在近几年有了飞速的发展。目前，目标检测算法被广泛的应用于智能驾驶、安防摄像头、工业上的裂纹污损检测等工作。

2025-04-26 19:52:47 1008

原创神经网络与计算机视觉

什么是神经网络（Neural Network）？神经网络又称人工神经网络（Artificial Neural Network，ANN）是机器学习（Machine Learning）中众多自适应优化算法的一种，其具有悠久的发展历史，最早可以追溯到上世纪40年代。神经网络通过搭建大量人工神经元并广泛连接形成网络，模拟生物神经系统对真实世界所作出的反应，以此为现实问题提出解决方案。那么什么是机器学习呢？

2025-04-26 19:45:13 1333

原创 More Pictures Say More: Visual Intersection Network for Open Set Object Detection

开放集目标检测近年来备受关注，因为现实世界中物体种类繁多，传统的封闭集检测方法难以处理。现有方法主要分为基于文本和纯视觉两类，前者存在模态差异大、需大量计算资源、受文本语义限制等问题，后者则面临多视觉提示融合质量低的挑战。本文提出视觉交集网络 VINO，通过构建多图像视觉库及多图像更新机制学习语义交集。其贡献在于首次在该领域用多图像语义交集，模型在多基准数据集上性能与先进方法相当，还通过添加分割头验证了通用性。

2025-04-16 11:30:03 145

原创 D-FINE-SEG: 将D-FINE改为实例分割模型

将最新的实时目标检测模型D-fine修改为支持掩码输出的实例分割模型。

2025-04-16 09:55:06 593 5

原创 contourformer:实时的轮廓分割transformer

对 SBD 、 COCO 和 KINS 等标准数据集的实验评估表明，该方法明显优于现有的最先进方法，从而验证了其有效性和多功能性。框架建立在 D-FINE 对象检测模型之上，并将边界框的回归扩展到轮廓的回归。为了实现高效的训练，Contourformer 采用迭代方法进行轮廓变形，并引入降噪机制来加速收敛过程。（2）细粒度分布细化：该模块通过细粒度概率建模和分布优化，进一步提高了分割结果的精度。（1）子轮廓解耦机制：该模块旨在有效地解耦复杂的轮廓关系，增强模型捕捉目标边界的能力；

2025-04-04 10:12:54 406

原创修改D-FINE支持成比例图像缩放训练

记录一下如何将最新的实时目标检测模型D-fine修改为输入图像支持成比例缩放训练的。

2024-12-05 16:47:45 368

原创生成mm grounding dino的onnx模型并在x-anylabeling中使用

X-AnyLabeling 是一款cvhub开发的交互式自动标注工具，其基于AnyLabeling进行构建和二次开发，在此基础上扩展并支持了许多的模型和功能，并借助Segment Anything和YOLO等主流模型提供强大的 AI 支持。其最新版基于grounding dino可以实现开放词汇检测及生成掩码。2024年，MMDet 3.3.0提出了 MM-Grounding-DINO。

2024-06-24 15:22:30 1687 4

原创《DETRs Beat YOLOs on Real-time Object Detection》将DETR加速至实时SOTA

最近看到百度写的一篇还算不错的DETR论文，通过简化DINO的encoder层将模型加速到实时水平，翻译了下，以作记录。

2023-04-18 22:07:55 1727

原创《DETRs with Collaborative Hybrid Assignments Training》加入one to many matching 辅助头训练的DETR

最近（2022年）的不少论文都将目光集中在了one to one matching机制上，年初CVPR的Denosing DETR认为one to one matching机制在模型训练的初期导致了损失不稳定，GT无法很好的与query稳定的进行匹配，因此提出了加入噪声干扰的GT输入作为query，与GT进行损失计算来辅助加速DETR模型训练，该课题组在此基础上提出了DINO、Mask DINO等模型，将DETR模式推到了SOTA的水平。辅助one to many matching的分支与原始主分支中的。

2022-11-26 22:58:40 5448

原创 TensorRT加速Deformable Detr实践

这让TensorRT便捷实现加速Deformable Detr乃至今年（2022年）最新的DETR类sota模型DINO、Mask DINO成为了可能。查了一下当前网络上并没有关于Deformable Detr 的TensorRT加速的实现方法，可能大佬们都觉的太简单没有必要吧，于是就自己写了一版方便大家使用。对于低于8.4.1.5的TensorRT版本，也可以选择把官方的插件自己编译到旧版本上。库，没有使用官方的原版。自TensorRT 8.4.1.5发布以来，惊喜的发现TensorRT官方实现了。

2022-11-26 00:13:47 3178 10

原创 CUDA实现多batch基数排序

CUDA实现多batch基数排序基数排序是具有固定迭代次数的排序算法, 其通过对最低位到最高位的一一比较，对数值排序。GPU版的基数排序将数据分为N个部分并行进行基数排序，随后并行规约得到排序后的数组。这里实现了一版多batch的基数排序实例，并同时输出原数组的序号，基本实现了argsort的功能，代码如下所示：#include<iostream>#include<cuda_runtime.h>__device__ void preprocess_float(float

2022-05-11 20:29:42 1270

原创 dn-detr:通过去噪任务加速detr训练

dn-detr:通过加速detr训练

2022-03-08 11:47:02 5269

转载 Tensorrt加速K-Net笔记

Tensorrt加速K-Net实录pytorch转onnxonnx转tensorrt是我转的不对么？FP16精度差是bilinear aglin_corner=False的问题吗罪魁祸首，FP16精度溢出自detr问世之后，set prediction和bipartite matching的思想在视觉检测任务上攻城略地，大有完全消灭nms之势，实现真正的end-to-end。其中，实例分割/全景分割的算法如maskformer、K-net的效果很是让人眼馋，那么能否利用tensorrt实现半精度加速，做到

2021-12-07 16:22:24 2159 12

原创 transformer在视觉检测的应用

transformer在视觉检测的应用detr简介一些基于detr启发论文目标检测Deformable DETRConditional DETRSparse R-cnn实例分割/全景分割SOLQMaskformerK-Net近年，Transformers在计算机视觉领域大放异彩。将transformer带入目标检测/实例分割的工作如过江之鲫，不胜枚举。而2020年Detection Transformers（detr）更是带来一种新的目标检测范式，启发了后续众多的工作。detr简介 detr结构d

2021-11-28 21:52:13 3037

原创使用TensorRT加速ScaledYOLOv4

使用TensoRT加速ScaledYOLOv4测试环境快速开始1、生成onnx模型2、编译3、转换onnx模型到trt模型4、测试速度效果使用mish插件层很多人都写过TensorRT版本的yolo了，我也来写一个。具体代码可参见我的github测试环境ubuntu 18.04pytorch 1.7.1 jetpack 4.4CUDA 11.0TensorRT7.1快速开始1、生成onnx模型 git clone --branch yolov4-csp https://github.c

2021-03-29 22:05:48 740

原创 Tensorrt实现solov2加速

Tensorrt实现solov2加速SOLO简介环境依赖快速开始下载代码并编译转换pytorch模型生成FP16模型执行推理测试效果SOLO简介solo系列网络是由Xinlong Wang提出的单阶段实例分割网络。其搭建在mmdetection库中。solov2主干网络如下图所示：其在COCO数据集上获得了较高的AP，并且由于其单阶段实例分割的特点，方面直接实现端到端的部署。因此，我们可以采用pytorch转onnx再转tensorrt的方式实现solo的半精度、int8加速，达到实时运行的目的。所

2020-12-04 11:38:40 4011 9

blanokvaffy的博客