- 博客(28)
- 收藏
- 关注
原创 D-FINE-SEG: 将D-FINE改为实例分割模型 update1
本文介绍了将D-FINE模型改进为实例分割模型D-FINE-SEG的过程。作者在之前实现的基础上,补充了COCO数据集上的测试代码和MASK分数评估功能。主要内容包括对postprocessor.py文件的修改,添加了处理mask预测的相关方法:通过_gather_masks收集预测mask,使用_resize_masks_to_input将mask调整至输入尺寸,以及_resize_masks_to_orig将mask还原至原始图像尺寸。这些改进使模型能够输出实例分割结果,并为后续在COCO数据集上的性能
2026-04-07 10:41:58
273
原创 UniPCB:给 PCB 质检做一套真正统一的多模态基准
本文提出UniPCB,首个面向开放式PCB质量检测的统一视觉语言基准,并开发了专用模型PCB-GPT。针对现有PCB数据集碎片化、标准不统一的问题,UniPCB整合了6581张图像和23359组双语QA对,建立了统一的缺陷分类体系和任务框架,涵盖三种场景14类子任务。PCB-GPT基于Qwen2.5-VL-7B-Instruct,采用三阶段课程学习:概念对齐、指令微调和强化学习优化。实验表明,PCB-GPT在UniPCB上平均得分67.3,定位F1达51.1,显著优于开源模型,且在跨数据集测试中展现出良好泛
2026-03-25 15:59:13
332
1
原创 AD-Copilot 论文解读:把“大模型看图”升级为“对照检验”的工业异常检测助手
本文提出AD-Copilot,一个面向工业异常检测的视觉语言助手,通过视觉上下文比较解决现有方法的不足。针对工业场景中多模态大模型表现不佳的问题,作者指出核心原因在于缺乏工业数据和比较能力不足。为此,论文提出三个关键贡献:构建Chat-AD数据集,设计Comparison Encoder显式建模图像差异,以及采用多阶段训练策略。实验表明,该方法在MMAD基准上达到82.29%准确率,定位任务提升3.35倍,并展现出良好的泛化能力。消融实验验证了比较模块的有效性,表明其成功源于高质量比较数据与显式比较模块的协
2026-03-25 15:13:24
233
原创 DitHub:把目标检测做成“Git 分支管理”
摘要: 论文《DitHub》提出了一种模块化增量学习框架,用于开放词表目标检测。传统方法将新知识压缩到同一套权重中,容易导致知识干扰和管理困难。DitHub借鉴版本控制思想,将不同类别/任务的知识拆分为独立模块(类似Git分支),支持按需组合。采用LoRA轻量化适配,通过两阶段训练(Warmup+Specialization)提升稳定性。实验表明,该方法在ODinW-13和新建的ODinW-O基准上均达到SOTA,兼顾增量学习与零样本能力。其核心价值在于模块化设计,支持灵活的知识增删改查,为持续学习提供了可
2026-03-22 21:03:47
336
原创 SAMSnake:让实例分割“沿着轮廓走”,而不是“往像素里涂”
SAMSnake:基于轮廓的实例分割新方法 这篇论文提出了一种新颖的实例分割方法SAMSnake,通过将目标表示为闭合轮廓曲线而非传统像素级mask。该方法采用三段式流程:首先用检测器定位目标,然后借助EfficientSAM生成初始轮廓,最后通过归一化偏移和动态匹配损失迭代优化轮廓形状。实验表明,该方法在Cityscapes、COCO等数据集上达到SOTA水平,特别擅长处理边界清晰度和复杂形状。相比传统方法,SAMSnake的优势在于边界更自然、计算更高效,且模块化设计便于下游任务扩展。这项研究为实例分割
2026-03-19 13:12:43
250
原创 EFDTR:用“傅里叶变换”做实例分割?
EFDTR提出了一种基于椭圆傅里叶描述子(EFD)的实例分割新方法。该方法通过两阶段框架:第一阶段用EFD参数捕捉目标整体形状,第二阶段细化轮廓点生成精确多边形。其创新点在于将轮廓匹配问题转换到频域相位空间,避免了传统多边形方法中顶点对齐的困难。实验显示EFDTR在COCO数据集上达到43.6 AP(ResNet-50),超越了现有多边形方法。该方法特别适合需要结构化轮廓输出的任务,为实例分割提供了更几何化的解决思路。
2026-03-19 10:04:00
179
原创 Poly-DETR:用多边形检测 Transformer 重新定义实例分割
Poly-DETR提出了一种基于Transformer的多边形检测方法,将实例分割重新定义为稀疏顶点回归问题。该方法采用极坐标表示多边形,通过Polar Deformable Attention机制在圆周上采样特征,解决了传统密集掩码预测的计算冗余问题。核心创新包括极坐标参数化表示、位置感知训练策略和动态采样机制,在保持高精度的同时显著提升了计算效率。实验表明,Poly-DETR在Cityscapes等数据集上实现了实时高性能实例分割,为密集预测任务提供了新的解决方案。
2026-03-13 21:31:57
560
原创 工业缺陷检测的新范式:2025-2026年零样本检测技术全景扫描
摘要: 工业视觉领域面临缺陷样本稀缺、标注成本高等痛点,零样本缺陷检测(Zero-Shot Defect Detection)成为研究热点。2025-2026年的技术进展主要分为三类:1)视觉-语言模型(VLM)路线,如CLIP适配器跨域对齐热成像数据;2)数字孪生路线,通过CAD模型生成理想状态对比检测缺陷;3)基于CLIP的提示学习,如Crane模型通过上下文提示提升泛化能力。尽管实验室效果显著(如IoU达70%),但在真实工业场景(如MIRAD数据集)中性能平均下降29.78%,凸显跨域泛化仍是挑战。
2026-03-13 20:38:29
841
原创 目标检测原理简介
目标检测是一类计算机视觉任务,简单来说,目标检测可被定义为在计算机中输入一张图像,计算机需要找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,如图一所示。目标检测是计算机视觉领域的核心问题之一,相较于最原始的将整张图片分类为某一类别,目标检测不光可以感知图像中物体的类别,还可以提取感兴趣物体在图像中的位置信息,并将图片区分为前景和背景。随着科技的进步,目标检测算法广泛的利用深度学习作为基础,在近几年有了飞速的发展。目前,目标检测算法被广泛的应用于智能驾驶、安防摄像头、工业上的裂纹污损检测等工作。
2025-04-26 19:52:47
1008
原创 神经网络与计算机视觉
什么是神经网络(Neural Network)?神经网络又称人工神经网络(Artificial Neural Network,ANN)是机器学习(Machine Learning)中众多自适应优化算法的一种,其具有悠久的发展历史,最早可以追溯到上世纪40年代。神经网络通过搭建大量人工神经元并广泛连接形成网络,模拟生物神经系统对真实世界所作出的反应,以此为现实问题提出解决方案。那么什么是机器学习呢?
2025-04-26 19:45:13
1333
原创 More Pictures Say More: Visual Intersection Network for Open Set Object Detection
开放集目标检测近年来备受关注,因为现实世界中物体种类繁多,传统的封闭集检测方法难以处理。现有方法主要分为基于文本和纯视觉两类,前者存在模态差异大、需大量计算资源、受文本语义限制等问题,后者则面临多视觉提示融合质量低的挑战。本文提出视觉交集网络 VINO,通过构建多图像视觉库及多图像更新机制学习语义交集。其贡献在于首次在该领域用多图像语义交集,模型在多基准数据集上性能与先进方法相当,还通过添加分割头验证了通用性。
2025-04-16 11:30:03
145
原创 contourformer:实时的轮廓分割transformer
对 SBD 、 COCO 和 KINS 等标准数据集的实验评估表明,该方法明显优于现有的最先进方法,从而验证了其有效性和多功能性。框架建立在 D-FINE 对象检测模型之上,并将边界框的回归扩展到轮廓的回归。为了实现高效的训练,Contourformer 采用迭代方法进行轮廓变形,并引入降噪机制来加速收敛过程。(2) 细粒度分布细化:该模块通过细粒度概率建模和分布优化,进一步提高了分割结果的精度。(1)子轮廓解耦机制:该模块旨在有效地解耦复杂的轮廓关系,增强模型捕捉目标边界的能力;
2025-04-04 10:12:54
406
原创 生成mm grounding dino的onnx模型并在x-anylabeling中使用
X-AnyLabeling 是一款cvhub开发的交互式自动标注工具,其基于AnyLabeling进行构建和二次开发,在此基础上扩展并支持了许多的模型和功能,并借助Segment Anything和YOLO等主流模型提供强大的 AI 支持。其最新版基于grounding dino可以实现开放词汇检测及生成掩码。2024年,MMDet 3.3.0提出了 MM-Grounding-DINO。
2024-06-24 15:22:30
1687
4
原创 《DETRs Beat YOLOs on Real-time Object Detection》将DETR加速至实时SOTA
最近看到百度写的一篇还算不错的DETR论文,通过简化DINO的encoder层将模型加速到实时水平,翻译了下,以作记录。
2023-04-18 22:07:55
1727
原创 《DETRs with Collaborative Hybrid Assignments Training》 加入one to many matching 辅助头训练的DETR
最近(2022年)的不少论文都将目光集中在了one to one matching机制上,年初CVPR的Denosing DETR认为one to one matching机制在模型训练的初期导致了损失不稳定,GT无法很好的与query稳定的进行匹配,因此提出了加入噪声干扰的GT输入作为query,与GT进行损失计算来辅助加速DETR模型训练,该课题组在此基础上提出了DINO、Mask DINO等模型,将DETR模式推到了SOTA的水平。辅助one to many matching的分支与原始主分支中的。
2022-11-26 22:58:40
5448
原创 TensorRT加速Deformable Detr实践
这让TensorRT便捷实现加速Deformable Detr乃至今年(2022年)最新的DETR类sota模型DINO、Mask DINO成为了可能。查了一下当前网络上并没有关于Deformable Detr 的TensorRT加速的实现方法,可能大佬们都觉的太简单没有必要吧,于是就自己写了一版方便大家使用。对于低于8.4.1.5的TensorRT版本,也可以选择把官方的插件自己编译到旧版本上。库,没有使用官方的原版。自TensorRT 8.4.1.5发布以来,惊喜的发现TensorRT官方实现了。
2022-11-26 00:13:47
3178
10
原创 CUDA实现多batch基数排序
CUDA实现多batch基数排序基数排序是具有固定迭代次数的排序算法, 其通过对最低位到最高位的一一比较,对数值排序。GPU版的基数排序将数据分为N个部分并行进行基数排序,随后并行规约得到排序后的数组。这里实现了一版多batch的基数排序实例,并同时输出原数组的序号,基本实现了argsort的功能,代码如下所示:#include<iostream>#include<cuda_runtime.h>__device__ void preprocess_float(float
2022-05-11 20:29:42
1270
转载 Tensorrt加速K-Net笔记
Tensorrt加速K-Net实录pytorch转onnxonnx转tensorrt是我转的不对么?FP16精度差是bilinear aglin_corner=False的问题吗罪魁祸首,FP16精度溢出自detr问世之后,set prediction和bipartite matching的思想在视觉检测任务上攻城略地,大有完全消灭nms之势,实现真正的end-to-end。其中,实例分割/全景分割的算法如maskformer、K-net的效果很是让人眼馋,那么能否利用tensorrt实现半精度加速,做到
2021-12-07 16:22:24
2159
12
原创 transformer在视觉检测的应用
transformer在视觉检测的应用detr简介一些基于detr启发论文目标检测Deformable DETRConditional DETRSparse R-cnn实例分割/全景分割SOLQMaskformerK-Net近年,Transformers在计算机视觉领域大放异彩。将transformer带入目标检测/实例分割的工作如过江之鲫,不胜枚举。而2020年Detection Transformers(detr)更是带来一种新的目标检测范式,启发了后续众多的工作。detr简介 detr结构d
2021-11-28 21:52:13
3037
原创 使用TensorRT加速ScaledYOLOv4
使用TensoRT加速ScaledYOLOv4测试环境快速开始1、生成onnx模型2、编译3、转换onnx模型到trt模型4、测试速度效果使用mish插件层很多人都写过TensorRT版本的yolo了,我也来写一个。具体代码可参见我的github测试环境ubuntu 18.04pytorch 1.7.1 jetpack 4.4CUDA 11.0TensorRT7.1快速开始1、生成onnx模型 git clone --branch yolov4-csp https://github.c
2021-03-29 22:05:48
740
原创 Tensorrt实现solov2加速
Tensorrt实现solov2加速SOLO简介环境依赖快速开始下载代码并编译转换pytorch模型生成FP16模型执行推理测试效果SOLO简介solo系列网络是由Xinlong Wang提出的单阶段实例分割网络。其搭建在mmdetection库中。solov2主干网络如下图所示:其在COCO数据集上获得了较高的AP,并且由于其单阶段实例分割的特点,方面直接实现端到端的部署。因此,我们可以采用pytorch转onnx再转tensorrt的方式实现solo的半精度、int8加速,达到实时运行的目的。所
2020-12-04 11:38:40
4011
9
原创 tensorRT在yolo上的使用
根据lewes6369的TensorRT-yolov3改写了一版基本实现可以推理视频和图片、可以多线程并行加速的TensorRT-yolov3模型,在win10系统和Linux上都成功的进行了编译。源码和编译方式详见我的github。搭建环境ubuntu16 & win10TensorRT 5.1CUDA 9.0 or CUDA 10.0测试效果ModelGPU...
2019-04-06 09:05:44
4646
3
原创 TensorRT在语义分割上的应用
TensorRT for a simple segmentation model使用VOC Person Part 训练LW Refinenet ——resnet50 作为神经网络,生成onnx模型并导入c++中实现在window上的实时语义分割。下载Resnet50 精度为64.1mIOU的onnx模型:百度云 密码:kx0j效果实验GPU:gtx1060 输入图像:512*512...
2019-04-04 23:37:00
2367
4
原创 DDPG强化学习pytorch代码
DDPG强化学习pytorch代码参照莫烦大神的强化学习教程tensorflow代码改写成了pytorch代码。具体代码如下.'''torch = 0.41'''import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gymimport time##...
2019-01-10 14:48:27
16624
19
原创 win10下autokeras的入门
win10下autokeras的安装按照官方网站的方法进行安装,注意:Auto-Keras只支持Python3.6。项目github:https://github.com/jhfjhfj1/autokeraspip install autokerasautokeras需要的依赖项很多,包括tensorflow、pytorch、keras、numpy等,大部分在pip安装autokeras都...
2018-10-15 14:37:13
2037
1
TensorRT normalize 和 multiscaleDeformableAttn插件
2025-05-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅