自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mingo_敏

计算机视觉和模式识别,深度学习

  • 博客(707)
  • 资源 (13)
  • 收藏
  • 关注

转载 PyTorch Cookbook(常用代码段整理合集)

本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...

2019-04-27 15:58:29 2922 4

原创 Linux常见命令汇总

Linux下统计当前文件夹下的文件个数、目录个数统计当前文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l统计文件夹下目录的个数,包括子文件夹里的ls -lR|grep "^d"|wc -l统计当前文件夹下文件的个数ls -l |grep "^-&quot

2018-12-06 11:08:08 1595 11

原创 本博客目录及版权申明

【C++ Primer 学习笔记】系列:第一部分 基本语言第二部分 容器和算法 【C++ Primer 学习笔记】: 容器和算法之【顺序容器】 【C++ Primer 学习笔记】: 容器和算法之【关联容器】 【C++ Primer 学习笔记】: 容器和算法之【泛型算法】第三部分 类和数据抽象第四部分 面向对象编程与泛型算法第五部分 高级主题【Java: 23种设计模式】系列 Java: 23

2015-11-25 17:37:30 1494 1

原创 Anomalib 1.x 系列之八:从0.*版本迁移到1.* 版本

Anomalib 1.x 系列之八:从0.版本迁移到1.版本Anomalib的配置发生了多项更改。配置文件已更新,添加了新参数并移除了已弃用的参数。此外,部分参数已被移至配置的不同部分。

2024-10-25 08:32:34 32

原创 Anomalib 1.x 系列之七:export 模型

将模型导出为PyTorch、ONNX或OpenVINO格式。Anomalib 1.x 系列之七:export 模型。

2024-10-25 08:31:28 19

原创 Anomalib 1.x 系列之六:自定义特征提取器 Feature extractors

Anomalib模型库,除了CSFLOW使用TorchFx特征提取器 Feature extractors,其他大多数使用Timm特征提取器 Feature extractors。Anomalib在确定了模型以后,调整更多的是用做特征提取器 Feature extractors的backbones。Anomalib 1.x 系列之六:自定义特征提取器 Feature extractors。可以访问 https://hf-mirror.com/ 解决。

2024-10-24 09:34:02 26

原创 深度学习论文: Loss Functions in the Era of Semantic Segmentation: A Survey and Outlook

语义图像分割,指的是将图像中的各个像素准确归类至特定类别,这一技术在众多视觉理解系统中扮演着核心角色。作为衡量统计模型效能的关键指标,损失函数在推动深度学习驱动的分割算法进步及提升整体性能方面起着至关重要的作用。为助力研究人员针对其特定应用场景筛选出最佳损失函数,本综述文章全面且系统地回顾了25种应用于图像分割的损失函数。本文提出了一种创新的分类框架,并深入剖析了这些损失函数在图像分割任务中的定制与运用方式,着重阐述了它们的关键特性和应用场景,同时进行了系统的归类。

2024-10-24 09:33:18 467

原创 Anomalib 1.x 系列之五:支持的模型model

Anomalib 1.x 系列之五:支持的模型model。

2024-10-23 08:52:36 31

原创 深度学习论文: PixOOD: Pixel-Level Out-of-Distribution Detection

PixOOD异常检测算法专注于密集图像预测,无需依赖异常数据样本进行训练,也不针对特定应用场景,从而有效规避了传统训练可能带来的偏差。为了精确建模像素级分布内数据的复杂类内变化,本文创新性地设计了一种在线数据压缩算法。该算法相较于标准的K-means方法展现出更强的鲁棒性,并且能够通过随机梯度下降(SGD)实现便捷的训练。PixOOD作为一种新颖的像素级OOD检测方法,具备高度的通用性,不针对任何特定任务或基准测试进行设计,同时无需任何真实或合成的OOD训练样本(详见第3节)。

2024-10-23 08:51:23 640

原创 Anomalib 1.x 系列之四:输入切片(tiling)

输入切片的基本思路是,在预处理阶段,将图像分割成一个矩形的切片网格,这通常是为了减少内存使用。通过将单个切片而非完整图像作为输入传递给模型,切片技术降低了模型的输入维度,同时从内容层面保持了图像的有效输入分辨率。在Anomalib中,切片器(Tiler)默认会按批次堆叠切片,因此如果不减小批次大小,内存消耗将保持不变。通过调整这些参数,用户可以灵活地控制切片过程,以适应不同的内存限制和图像处理需求。Anomalib 1.x 系列之四:输入切片(tiling)

2024-10-22 08:31:18 27

原创 Anomalib 1.x 系列之三:自定义数据增强

Anomalib 1.x 系列之三:自定义数据增强Anomalib 使用 Torchvision Transforms v2 API 对输入图像应用转换操作。

2024-10-22 08:30:10 26

原创 Anomalib 1.x 系列之二:自定义数据

name (str) – 数据集的名称。normal_dir (str | Path | Sequence) – 包含正常图像的目录名称。root (str | Path | None) – 包含正常和异常目录的根文件夹路径。默认为 None。abnormal_dir (str | Path | None | Sequence) – 包含异常图像的目录名称。默认为 None。

2024-10-21 08:34:17 357

原创 Anomalib 1.x 系列之一:安装和使用

Anomalib 1.x 系列之一:安装和使用。

2024-10-21 08:33:15 36

原创 深度学习论文: AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

AM-RADIO是一个由英伟达精心打造的视觉基础模型框架,它巧妙地将CLIP、DINOv2及SAM等多个预训练的视觉基础模型的强大能力融为一体,从而赋予了自身卓越的表征能力。尤为值得一提的是,这一框架在几乎不增加任何额外成本的前提下,成功实现了SOTA(State-of-the-Art)级别的零样本分类与开集实例分割性能,这一成就无疑令人瞩目。

2024-10-17 11:57:34 270

原创 深度学习论文: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

以往的开放集物体检测方法依赖于文本提示,虽然能够有效地概括常见物体的抽象概念,但在数据稀缺和描述能力受限的情况下,难以有效表示罕见或复杂物体。与此相反,视觉提示在通过具体视觉示例描绘新物体方面表现出色,但在传达物体的抽象概念方面不如文本提示有效。T-Rex2模型通过对比学习结合了文本和视觉提示的互补优势,将两者融合在单一模型中。该模型能够接受包括文本提示、视觉提示以及两者结合的多种格式输入,使其能够通过切换提示模式来适应不同场景。

2024-10-16 16:44:08 170

原创 Bounding Box Regression Loss演变过程

目标检测任务的损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成。本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演变过程

2024-10-16 13:40:38 51

原创 深度学习论文: EfficientCrackNet: A Lightweight Model for Crack Segmentation

EfficientCrackNet 是一种创新的轻量级混合模型,它将卷积神经网络(CNNs)与 Transformer 架构巧妙融合,旨在实现高精度的裂缝分割任务。该模型通过集成深度可分卷积层(DSC)和移动视觉块,有效捕捉图像中的全局与局部特征,从而提升了裂缝识别的准确性。为了进一步提升效率,EfficientCrackNet 采用了边缘提取方法(EEM),这种方法能够在无需预训练的情况下,实现高效的裂缝边缘检测。

2024-10-15 16:55:30 76

原创 深度学习论文: PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised OBB

深度学习论文: PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object DetectionPointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object DetectionPDF: https://arxiv.org/pdf/2410.08210PyTorch代

2024-10-15 13:55:31 235

原创 深度学习论文: Slender Object Detection: Diagnoses and Improvements

本文关注细长物体的检测,这类物体具有极端的长宽比,在现实生活中十分常见,对检测系统的目标实现至关重要。然而,以往的目标检测算法在很大程度上忽略了这一类别。研究发现,在经典目标检测方法的评估中,若专注于细长物体,其在COCO数据集上的平均精度均值(mAP)会显著下滑18.9%。鉴于此,本文深入研究了细长物体检测的问题,构建了一个分析框架,并设计了专门的基准测试和评估流程,以便全面审视和对比不同的算法与模块。研究结果显示,有效的细长物体检测不依赖于基于锚点的定位方式或特定的框表示方法,而关键在于特征适应。

2024-10-11 16:57:10 160

原创 使用StyleGAN3合成自定义数据(pytorch代码)

StyleGAN3 是基于前代 StyleGAN 和 StyleGAN2 的改进版本,旨在解决图像生成中的伪影问题,并提高生成图像的一致性和稳定性。Alias-free 卷积操作:减少图像中的伪影,使生成的图像质量更高,细节更清晰。网络架构优化:对生成器和判别器的网络架构进行优化,提高训练效率和生成图像的质量。逐层风格控制:继承前代模型的风格混合和逐层风格控制特性,允许在生成过程中对图像的不同部分进行精细控制。这些改进使得 StyleGAN3 非常适合用于图像合成,尤其是在训练数据有限的情况下。

2024-10-11 12:03:18 214

原创 无人机航拍视频帧处理与图像拼接算法

无人机航拍视频帧处理与图像拼接算法。

2024-10-08 13:41:26 419

原创 基于深度学习的药品三期OCR字符识别

哪吒开发套件以信用卡大小的哪吒开发板为核心,采用英特尔®处理器N97(Alder Lake-N),支持四核SoC,时钟频率高达3.60GHz,TDP仅为12W。内置GPU支持高分辨率显示,并具备强大的AI推理能力,是进行深度学习模型推理的理想平台。哪吒开发板还配备了高达8GB的LPDDR5系统内存和64GB的eMMC存储,支持Windows和Linux操作系统,为开发者提供了灵活的开发环境。

2024-09-19 11:36:52 526

原创 深度学习论文: AnomalousPatchCore: Exploring the Use of Anomalous Samples in Industrial Anomaly Detection

PatchCore包含三个主要阶段:特征提取:使用预训练的ResNet-50等特征提取器从训练集的正常样本中提取特征,但不进行微调。选择ResNet-50的第三和第四阶段的输出,以获取语义丰富的图像表示。块提取:从合并的特征图中提取局部块,以实现平移不变性。通过平均池化在预定义大小的邻域上聚合特征,形成局部感知的块特征,并存储在正常样本的记忆库中。推理加速:在推理阶段,使用相同的特征提取器处理测试样本,并创建测试块。通过计算测试块与记忆库中最近块的距离来分配异常分数,并生成异常图。

2024-09-12 17:09:57 81

原创 yolov8-obb中存在的一个bug

cv2.minAreaRect() 函数返回一个 RotatedRect 对象 rect,该对象包含三个要素:中心坐标 (x, y)、尺寸 (w, h)(其中 w 和 h 分别代表矩形的宽度和高度,但并非基于长短定义,而是基于方向),以及旋转角度 angle(表示矩形相对于水平轴逆时针旋转的角度)。这里尤其要注意的是 旋转角度θ是水平轴(x轴)逆时针旋转,与碰到的矩形的第一条边的夹角。即训练数据如果包含不带旋转角度的水平目标时,训练出的模型,经常会输出垂直的检测框,需要旋转90度以后才能得到最终结果。

2024-09-12 09:31:57 632

原创 Byte Pair Encoding(BPE)算法原理以及其python实现

Byte Pair Encoding(BPE)是一种基于统计的压缩算法,最初由Gage于1994年在“A New Algorithm for Data Compression”一文中提出。尽管其初衷是用于数据压缩,但随着自然语言处理(NLP)的发展,BPE被广泛应用于词汇表构建和分词任务中,尤其是在处理形态丰富的语言时表现尤为出色。BPE通过迭代地合并文本语料库中最频繁的相邻字符对,生成子词单元(subword units),从而以更紧凑和高效的方式表示原始文本。

2024-08-29 16:26:38 316

原创 深度学习论文: Sapiens: Foundation for Human Vision Models

Meta Reality Labs 隆重推出的Sapiens模型系列,是一套前沿的人工智能解决方案,专注于深化人类对视觉任务的理解与处理能力。这一系列模型精心打造,旨在高效应对四大核心视觉挑战:2D姿态估计、身体部位精准分割、深度信息的精确估计以及表面法线的准确预测。Sapiens的卓越之处在于其原生支持高达1K分辨率的高清推理能力,这一特性让模型在处理复杂细腻、细节丰富的图像时展现出非凡的性能,为用户带来前所未有的视觉体验。

2024-08-28 16:16:33 206

原创 深度学习论文: Evaluating SAM2’s Role in Camouflaged Object Detection: From SAM to SAM2

Meta AI推出的Segment Anything Model(SAM)作为通用目标分割模型,引领了图像分割技术的革新。随后,SAM2应运而生,这一统一模型不仅保留了SAM的图像分割能力,更将功能扩展至视频领域。SAM2在适用领域、分割准确度和运行速度上均有显著提升,但本报告指出,在自动模式下,SAM2识别图像中不同目标的能力相比SAM有所下降。这一发现基于伪装目标检测任务的评估,显示SAM2在特定任务上仍有优化空间。

2024-08-06 09:50:06 133

原创 深度学习论文: SAM 2: Segment Anything in Images and Videos

SAM 2架构的推出标志着SAM(Segmentation with A Million examples)技术从静态图像领域向动态视频领域的重大跨越。这一升级不仅保留了SAM在图像分割中的高效与准确性,还通过一系列创新设计,使得SAM 2能够灵活应对视频中的复杂场景与动态变化。在SAM 2中,用户可以通过点击、边界框或掩码等多样化的交互方式,在视频的任一给定帧中精确定义目标对象的范围。随后,一个轻量级的掩码解码器利用当前帧的图像特征与编码后的用户提示,迅速输出该帧的精细分割掩码。

2024-07-31 14:38:15 414

原创 python 对 xxx.pt或者xxx.pth文件加密和解密

在Python中,直接对.pt或.pth(PyTorch模型文件)进行加密和解密通常不是直接由PyTorch库本身支持的,因为这些文件主要是用于存储模型的权重和参数,而不是设计为加密存储。然而,你可以通过读取这些文件的内容,使用Python的加密库(如cryptography)来加密这些内容,然后将加密后的数据存储到新的文件中。解密过程则相反,从加密的文件中读取内容,解密后再保存到原始格式的文件中。

2024-07-22 10:15:14 370

原创 Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)

Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)

2024-07-19 15:54:03 642

原创 深度学习论文: Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching

目前的特征匹配方法主要致力于提升模型的匹配能力,以更精确地接近理论最佳匹配结果,即所谓的“上限”。但这些改进并未解决影响真实匹配效果的根本问题,例如小尺寸图像中匹配点的缺乏、密集匹配方法中的冲突,以及稀疏匹配方法对关键点可重复性的依赖。动态视图切换:通过策略性地交换图像对,解决源图像中匹配点不足的问题。无冲突粗匹配:采用多对一的匹配策略,减少目标图像中的匹配冲突。半稀疏与粗到细架构:结合这两种方法,既保持了高效率,又实现了全局搜索,降低了对关键点可重复性的依赖。

2024-07-19 15:52:54 535

原创 Large Language Model系列之二:Transformers和预训练语言模型

Large Language Model系列之二:Transformers和预训练语言模型。

2024-07-16 09:22:33 992

原创 Large Language Model系列之一:语言模型与表征学习(Language Models and Representation Learning)

语言模型与表征学习(Language Models and Representation Learning)

2024-07-16 08:50:33 968

原创 深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching

本文创新性地推出了XFeat(加速特征),一种轻量级且高精度的CNN架构,专为资源受限的视觉任务设计。XFeat优化了局部特征的检测、提取与匹配,通过减少通道数同时保持高分辨率,实现了速度与精度的平衡。它提供灵活的半密集匹配选项,并引入创新的匹配细化模块,利用粗糙描述符提升匹配精度,无需额外高分辨率特征,显著降低了计算成本。XFeat通用性强,硬件无关,速度远超同类深度学习模型,且能在普通CPU上实时运行,展现了在视觉定位和姿态估计等任务中的卓越性能。

2024-07-15 15:53:10 1484

原创 深度学习论文: MobileSAMv2: Faster Segment Anything to Everything

SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。

2024-07-12 16:07:19 685

原创 深度学习论文: YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision

本文全面回顾了 YOLO(You Only Look Once)目标检测算法的演进,重点关注了 YOLOv5、YOLOv8 和 YOLOv10。我们分析了这些版本在架构进步、性能提升以及边缘部署适用性方面的情况。YOLOv5 引入了 CSPDarknet 主干和马赛克增强等重大创新,平衡了速度和准确性。YOLOv8 在此基础上通过增强特征提取和无锚点检测,提高了通用性和性能。YOLOv10 通过无NMS训练、空间-通道解耦下采样和大核心卷积等特性,实现了跨越式进步,达到了最先进的性能,同时减少了计算开销。

2024-07-12 11:20:59 1620

原创 深度学习论文: Efficient Modulation for Vision Networks

本文提出高效调制,一种新颖的高效视觉网络设计。重新审视调制机制,通过卷积上下文建模和特征投影层处理输入,融合特征时采用逐元素乘法与MLP块。实验表明,调制机制适合高效网络,通过高效调制(EfficientMod)块定制设计,成为网络的基本构建块。该设计在精度与效率间实现良好权衡,刷新高效网络性能。结合基本自注意力块,性能进一步提升且效率不变。实验验证EfficientMod性能卓越,参数更少情况下,相比EfficientFormerV2-s2,准确率提升0.6%(top-1),GPU速度快25%;与Mobi

2024-07-11 14:41:39 980

原创 深度学习论文: LLaMA: Open and Efficient Foundation Language Models

本文介绍了LLaMA,这是一系列基础而先进的语言模型,其参数规模横跨7亿至65亿不等,展现了强大的语言处理能力。研究表明,通过大规模公开数据的训练,LLaMA系列模型成功打破了对专有或受限数据集的依赖,达到了业界最前沿(SOTA)的性能水平。本研究的核心目标是通过显著增加训练中的token数量,开发出在不同推理场景下均能展现出卓越性能的语言模型。LLaMA模型家族以其多样的参数配置,为语言模型领域带来了新的竞争力量。

2024-07-10 11:27:18 1785 1

原创 深度学习论文: Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey

当前,深度学习在视觉检测领域借助监督学习取得了显著成就。但在工业实践中,缺陷样本稀缺、标注成本高及先验知识不足等挑战限制了监督方法的有效性。近五年来,无监督异常定位算法在工业检测中崭露头角,应用日益广泛。本文旨在通过深度梳理工业图像无监督异常定位领域的最新深度学习研究成果,为研究者构建一条快速入门路径。我们综合分析了超过120篇核心文献,全面覆盖了该领域的核心概念、面临的挑战、分类体系、基准数据集,以及各方法的量化性能对比。

2024-07-08 09:23:21 977

原创 深度学习论文: VanillaNet: the Power of Minimalism in Deep Learning

提出的VanillaNet通过简化设计,避免了过度深度和复杂操作,同时采用“深度训练”策略和创新的激活函数,以提高性能,适合资源受限的环境。VanillaNet展示了在保持简洁的同时实现高效率和准确性的可能性,为神经网络设计提供了新的方向。

2024-06-28 08:32:52 450

CUDA C编程权威指南

CUDA C编程权威指南 第1章 基于CUDA的异构并行计算1 第2章 CUDA编程模型18 第3章 CUDA执行模型56 第4章 全局内存115 第5章 共享内存和常量内存174 第6章 流和并发230 第7章 调整指令级原语258 第8章 GPU加速库和OpenACC281

2019-05-02

CUDA并行程序设计 GPU编程指南

CUDA并行程序设计:GPU编程指南共分为12章。 第1章 超级计算简史 第2章 使用GPU理解并行计算 第3章 CUDA硬件概述 第4章 CUDA环境搭建 第5章 线程网格、线程块以及线程 第6章 CUDA内存处理 第7章 CUDA实践之道 第8章 多CPU和多GPU解决方案 第9章 应用程序性能优化 第10章 函数库和SDK 第11章 规划GPU硬件系统 第12章 常见问题、原因及解决方案

2019-05-02

OpenVINO视觉加速库依赖包

OpenVINO视觉加速库相关的依赖库,不能在线安装时,可以手动下载安装

2019-04-14

linux下安装Anaconda3+pytorch+tensorboardX依赖包

linux下安装Anaconda3+pytorch+tensorboardX依赖包, 安装见 https://blog.csdn.net/shanglianlm/article/details/88749803

2019-03-23

训练好用于车牌分割的神经网络

训练好用于车牌识别的神经网络,0-9,A-Z(不含I和O),每个字符使用50张图片,训练好用于车牌识别的神经网络。

2017-09-22

Quartz 示例代码

Quartz 是一个完全由 Java 编写的开源企业级作业调度框架。Quartz允许开发人员根据时间间隔来调度作业。它实现了作业和触发器的多对多的关系,还能把多个作业与不同的触发器关联。

2017-05-02

Java反射机制代码

Java反射机制:反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能。

2017-05-01

java反射示例代码

Java反射机制:反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能。

2017-05-01

爬虫爬取网易汽车车型库【Java代码】

爬虫爬取网易汽车车型库【Java代码】不同品牌/车标(共175个车标)下不同车系(共1650个系列)的的图片(各八张)

2017-04-16

Java爬虫爬取网易汽车车型库

Java爬虫爬取网易汽车车型库

2017-04-15

Java 核心技术(第八版)高清电子书PDF和代码

Java 核心技术(第八版)高清电子书PDF和代码

2015-07-27

OpenCV3_CVPR_2015.pptx

opencv3新增加的功能,CVPR2015年会议上的PPT,共三个文件

2015-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除