小北的北-CSDN博客

原创写在前言

中午吃饭的时候，和一位公司的前辈聊起来知识繁碎的问题。我：总觉得自己从上学到工作，什么都只是接触了一点点，好多学过的东西也只是记在了小本本上，后来就找不到了。前辈：你可以写到自己的博客上。我：可是博客上精通某个领域的人太多了，和他们比起来，自己写的博客根本就不能看，也害怕自己万一写错了给别人造成误解。前辈：就算不是为了给别人看，自己当作一种记录的方式也挺好的；而且，每篇文章都有它的阅读人群，太高端...

2018-04-27 14:09:17 821 2

原创图像生成技术 | 巧妙用于目标检测任务

点击下方卡片，关注“小白玩转Python”公众号在深度学习中，缺乏足够的训练数据是一个主要问题。对于计算机视觉任务，一个有前景的解决方案是自动生成带注释的合成图像。在本文中，我将首先概述一些用于生成合成图像数据的技术。然后，我们将生成一个不需要手动注释的训练数据集，并使用它来训练一个Faster R-CNN目标检测模型。最后，我们将在真实图像上测试我们训练好的模型。图像生成技术理论上，合成图像是完...

2024-05-22 20:00:27 263

原创 YOLOV9 实例分割自定义数据集训练 | 效果极佳！

点击下方卡片，关注“小白玩转Python”公众号YOLOv9 官方 GitHub：https://github.com/WongKinYiu/yolov9在我们继续之前，让我向您介绍一下 YOLOv9：使用可编程梯度信息学习你想学的内容。这款模型根据2024年2月29日发布的研究论文（https://arxiv.org/pdf/2402.13616.pdf）最近发布。我觉得有趣的是广义高效层聚合网...

2024-05-21 20:32:06 102

原创探索基于 Hugging Face 的目标检测

点击下方卡片，关注“小白玩转Python”公众号机器学习中的目标检测任务涉及识别图像或视频中特定类别（如人、汽车或动物）的实例，然后通过在它们周围绘制边界框来准确定位这些实例。让我们快速尝试一个模型：我们将在图像中检测猫：from transformers import pipelinemodel = pipeline("object-detection")result = model("ca...

2024-05-20 20:00:10 228

原创 RetinaFace：适用于高分辨率图像的面部检测模型

点击下方卡片，关注“小白玩转Python”公众号概述RetinaFace是一种高精度的面部检测模型，于2019年5月发布，由伦敦帝国理工学院与因其面部识别库而闻名的InsightFace合作开发。详细链接可以参考：https://insightface.ai/该模型计算面部的边界框以及眼睛和嘴巴的关键点。它在不调整大小的情况下完美地处理高分辨率图像，并执行分层检测过程，从而可以在图像中稳健地检测到...

2024-05-19 20:13:44 731

原创基于 YOLOv8 的目标检测实例应用

点击下方卡片，关注“小白玩转Python”公众号通过使用 YOLOv8 目标检测和侦察无人机拍摄的航空图像来利用地理空间情报（GEOINT）统计敌方飞机，从而规划军事行动。使用 YOLOv8 识别敌方空军基地的飞机在本文中，我们将深入探讨地理空间情报（GEOINT）作为跟踪敌方军事空军基地的工具。通过有效地监控这些位置及其飞机，可以为针对它们的作战行动进行充分准备。YOLOv8 目标检测YOLOv...

2024-05-17 20:05:10 660

原创基于深度学习的实时视频处理 | 入门指南

点击下方卡片，关注“小白玩转Python”公众号本文是一份从0到100的指南，旨在帮助你在深度学习中开始视频处理。包括图像处理、视频格式、重新编码、通过HTTP、WebSockets和WebRTC进行流媒体传输。近来，整个机器学习领域似乎被大型语言模型（LLM）和检索增强生成（RAG）所掩盖。虽然许多用例可以从这些新的基础模型中受益，但在非文本数据方面仍存在差距。我常把当前的机器学习阶段比作汽车工...

2024-05-16 20:01:18 582

原创使用OpenCV GUI清理数据集 | 为目标检测模型创建更好的数据集

点击下方卡片，关注“小白玩转Python”公众号在深度学习中有几件重要的事情，我认为数据是最关键的。如果没有合适的数据，要取得好的结果是非常困难的。即使你用强大的预训练模型和GPU训练模型，你的模型也可能表现不佳。在本文中，我将讨论如何获取数据集、分析数据集并使用简单的OpenCV GUI应用程序对其进行清理。我将使用Python作为编程语言。标记的图像获取数据的最佳网站有两种主要方法可以获取数据...

2024-05-15 20:17:01 564

原创完整的文本检测与识别 | 附源码

点击下方卡片，关注“小白玩转Python”公众号另外，你还记得每家店铺都有独特的名字书写方式吗？像Gucci、Sears、Pantaloons和Lifestyle这样的知名品牌在其商标中使用了曲线或圆形字体。虽然这一切吸引了顾客，但对于执行文本检测和识别的深度学习（DL）模型来说，它确实提出了挑战。当你读取横幅上的文字时，你会怎么做？你的眼睛首先会检测到文本的存在，找出每个字符的位置，然后识别这些...

2024-05-09 20:28:33 403

原创一文读懂三维点云分割

点击下方卡片，关注“小白玩转Python”公众号什么是点云分割？点云是世界的一种非结构化三维数据表示，通常由激光雷达传感器、立体相机或深度传感器采集。它由一系列单个点组成，每个点由 x、y 和 z 坐标定义。自动驾驶模型的点云分割（来源：https://github.com/PJLab-ADG/PCSeg）点云分割将这些点聚类成表示环境中的表面、物体或结构的不同语义部分。其目标是根据在三维场景中...

2024-05-07 20:19:47 605

原创基于 PyTorch 的人脸关键点检测

点击下方卡片，关注“小白玩转Python”公众号计算机真的能理解人脸吗？你是否想过Instagram是如何给你的脸上应用惊人的滤镜的？该软件检测你脸上的关键点并在其上投影一个遮罩。本教程将文章你如何使用PyTorch构建一个类似的软件。数据集在本教程中，我们将使用官方的DLib数据集，其中包含6666张尺寸不同的图像。此外，labels_ibug_300W_train.xml（随数据集提供）包含每...

2024-05-05 20:09:48 676

原创使用回调函数训练YOLO模型

点击下方卡片，关注“小白玩转Python”公众号大多数人可能熟悉如何训练计算机视觉模型，比如流行的YOLO模型，甚至知道如何使用这些模型进行预测。但你知道我们可以通过回调函数为这些模型增加一些灵活性，以便在模型训练和模型推断中使用吗？大多数最先进的（SOTA）YOLO模型，如YOLOv8和YOLO-NAS，都实现了回调函数，我们可以调整这些函数以有效地利用我们的计算机视觉模型的训练和推断。考虑以下...

2024-05-04 20:01:06 535 1

原创视觉自回归建模：通过下一尺度预测实现可扩展图像生成 |论文Review

点击下方卡片，关注“小白玩转Python”公众号论文链接：https://arxiv.org/abs/2404.02905代码链接：https://github.com/FoundationVision/VAR项目链接：https://var.vision/视觉自回归建模是一种新的图像自回归学习方法，通过关注从粗到细的尺度预测，摆脱了传统的逐像素扫描方法来预测下一个标记。这种方法使得自回归Tran...

2024-04-30 20:29:28 670

原创小目标检测实战

点击下方卡片，关注“小白玩转Python”公众号利用切片辅助的超级推断目标检测是计算机视觉中的基本任务之一。在高层次上，它涉及预测图像中物体的位置和类别。像You-Only-Look-Once（YOLO）系列中的最先进（SOTA）深度学习模型已经达到了令人瞩目的准确度。然而，目标检测中一个众所周知的挑战是小物体。在本文中，您将学习如何使用切片辅助的超级推断（SAHI）来检测数据集中的小物体。我们将...

2024-04-28 20:39:42 735 1

原创图像分割 — 初学者指南

点击下方卡片，关注“小白玩转Python”公众号图像分割是一种计算机视觉技术，它为图像中的每个像素分配一个标签，使得具有相同标签的像素具有某些特征。例如，在街景中，所有属于汽车的像素可能被标记为一种颜色，而属于道路的像素可能被标记为另一种颜色。但是，要理解图像分割以及它为什么有用，让我们回到基础知识……分类器可爱的小狗但是如果我们想要知道狗到底在哪里呢？一种方法是在狗周围画一个边界框，这称为目标检...

2024-04-25 20:00:46 591

原创 ViTDet — 图像基础模型的首选架构

点击下方卡片，关注“小白玩转Python”公众号截至2024年1月，ViTDet是所有视觉任务的首选架构。它被用于“segment-anything”。在ViTAE-Transformer中，我们在语义分割、目标检测、人体姿势、抠图、遥感等多个任务上取得了最先进的结果。理解这个骨干架构将有助于我们根据任务选择最佳参数。ViTDet的设计是为了强调使用变换器进行目标检测的专门架构的必要性。从某种意义...

2024-04-24 20:41:06 793

原创简化目标检测：使用 Grounding DINO 对自定义数据集进行标注

点击下方卡片，关注“小白玩转Python”公众号对于像 YOLO 这样的模型，使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据，并围绕其定义标注，那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO！这种方法的突破之处在于，它将基于 Transformer 的检测器 DINO 与基础预训练相结合，可以从有限的人类输入中检测到任意对象。这篇简易...

2024-04-22 20:09:29 1058

原创新目标检测模型YOLOv9实践 — 训练自定义数据

点击下方卡片，关注“小白玩转Python”公众号新YOLOv9模型的更新YOLO系列模型有了一个新成员，在2024年2月发布了一篇新论文，标题为“YOLOv9: 使用可编程梯度信息学习您想要学习的内容”，详细论文可以在这个链接中查看：https://arxiv.org/pdf/2402.13616.pdf。以下是一个快速概述：解决方案的核心是引入了可编程梯度信息（PGI）和一种新的轻量级网络架构，...

2024-04-21 20:31:58 657

原创 YOLOv9：在自定义数据上进行图像分割训练

点击下方卡片，关注“小白玩转Python”公众号在快速发展的计算机视觉领域，物体分割在从图像中提取有意义信息方面发挥着重要作用。在各种分割算法中，YOLOv9 已经成为一个强大而灵活的解决方案，提供了高效的分割能力和出色的准确性。在这个全面的指南中，我们将深入探讨如何在自定义数据集上训练 YOLOv9 进行物体分割，并对测试数据进行推断。通过本教程，您将深入了解 YOLOv9 的分割机制，并学会如...

2024-04-20 20:02:52 1101

原创使用OpenCV和Python掌握计算机视觉：深入探讨高级技术及代码演示

点击下方卡片，关注“小白玩转Python”公众号在不断发展的技术领域中，计算机视觉作为一种变革性力量脱颖而出，使机器能够解释和理解视觉信息。OpenCV（开源计算机视觉库）成为该领域的基石，提供了丰富的工具和功能，用于图像和视频处理。在本文中，我们将探索OpenCV的基础知识，并深入研究9个高级Python代码示例，展示其多样性和强大功能。理解OpenCVOpenCV是一个开源的计算机视觉和机器学...

2024-04-18 23:12:07 745

原创 Albumentations库：为自定义数据进行数据增强

点击下方卡片，关注“小白玩转Python”公众号为什么在深度学习中使用增强？深度学习和计算机视觉中的增强已经成为至关重要的几个原因。首先，它丰富了训练数据集，使模型能够从更多样化的示例中学习，这在标记数据有限时尤为重要。增强还有助于减少过拟合，因为它在数据中引入变化，使模型更具鲁棒性，适应未见过的真实场景。此外，增强模拟了计算机视觉中的真实世界条件，例如光照，视角或比例的变化，确保模型在实际应用中...

2024-04-15 20:05:25 1028

原创基于 YOLOv9 的自定义数据集目标检测

点击下方卡片，关注“小白玩转Python”公众号在本指南中，我们将展示使用自定义数据集训练 YOLOv9 模型的过程。具体而言，我们将提供一个示例，重点介绍训练一个视觉模型来识别篮球场上的篮球运动员。但是，这个指南是多功能的，允许您将其应用于您选择的任何数据集。什么是 YOLOv9？随着计算机视觉技术不断发展，YOLOv9 出现作为最新的进展，由 Chien-Yao Wang、I-Hau Yeh ...

2024-04-12 20:14:36 674

原创 OpenCV 对象跟踪：均值漂移和Cam漂移算法

点击下方卡片，关注“小白玩转Python”公众号有多种跟踪和检测对象的方法，而OpenCV提供了各种算法和函数来实现这一目的。在本文中，我将使用均值漂移和Cam漂移算法创建一个对象跟踪器。这两种算法利用对象的颜色直方图，并试图在每一帧中找到最佳匹配的直方图。Cam漂移均值漂移和Cam漂移均值漂移和Cam漂移相似，但产生不同的结果。均值漂移产生更简单的结果，它不能处理旋转，并且不能正确检测对象大小变...

2024-04-11 20:00:46 356

原创基于 Python 和 HuggingFace Transformers 的目标检测

点击下方卡片，关注“小白玩转Python”公众号YOLO！如果你对机器学习感兴趣，这个术语一定不陌生。确实，You Only Look Once已经成为过去几年中目标检测的默认方法之一。受到卷积神经网络取得的进展推动，许多版本的目标检测方法已经被创建。然而，近年来，一个竞争对手出现在了视野中——那就是在计算机视觉中使用基于Transformer的模型。更具体地说，是使用Transformer进行目...

2024-04-10 20:04:28 788

原创微调语言模型识别收据图片并保存至JSON/XML

点击下方卡片，关注“小白玩转Python”公众号动机将收据图像转换为JSON或XML对象的动机在于以结构化和组织良好的方式更容易存储、分析和操作数据。JSON（JavaScript对象表示）和XML（可扩展标记语言）都是轻量级的数据交换格式，易于人类阅读和编写，也易于机器解析和生成。通过将收据图像转换为JSON或XML对象，数据可以轻松存储在数据库中或通过互联网传输，使其更易于访问和用于各种应用程...

2024-04-09 20:51:37 735

原创在微调时保存 embeddings 演变过程，并以动画演示

点击下方卡片，关注“小白玩转Python”公众号在机器学习领域，视觉变换器（Vision Transformers，ViT）是一种用于图像分类的模型类型。与传统的卷积神经网络不同，ViT使用了最初设计用于自然语言处理任务的变换器架构来处理图像。对这些模型进行微调以获得最佳性能可能是一个复杂的过程。在先前的一篇文章中，我使用动画来演示在微调过程中embedding发生的变化。这是通过对embeddi...

2024-04-06 20:42:34 451

原创基于 YoLo v8 的区域拖动奶牛计数器

点击下方卡片，关注“小白玩转Python”公众号计算机视觉是一个跨学科的科学领域，涉及计算机如何从数字图像或视频中获得高层次的理解。从工程的角度来看，它致力于理解并自动化人类视觉系统可以执行的任务。如今，任务分类、目标检测、分割和关键点检测是主要的实时计算机视觉应用。那么，大家认为它是如何发展起来的呢？首先，我们将简要讨论计算机视觉的主要问题。我认为在看了上面的图片之后，你对与计算机视觉挑战相关的...

2024-04-04 22:04:20 274

原创使用 BeeWare 构建 Python GUI 应用程序

点击下方卡片，关注“小白玩转Python”公众号本文探讨使用 BeeWare 套件通过 Python 构建应用程序的基础知识，详细介绍其功能、优点以及与其他流行框架的比较。由于 Python 语言的简单性和多功能性，用它构建应用程序变得越来越流行。在 Python 开发人员可用的各种框架和工具中，BeeWare 脱颖而出，成为独特而强大的选择。本文探讨使用 BeeWare 套件通过 Python ...

2024-04-03 19:57:51 982

原创基于 MiDaS和Python 开始做深度估计

点击下方卡片，关注“小白玩转Python”公众号测量物体与相机之间的距离在计算机视觉领域中面临着重大挑战，原因包括2D图像中缺乏固有深度信息、透视失真、物体尺寸变化、相机校准要求以及在复杂场景中的遮挡。例如，通过透视投影进行的距离估计依赖于传感器尺寸、焦距和物体的实际高度等变量。这些未知变量的计算增加了任务的复杂性。物体距离的公式一系列基于传统方法和深度学习的方法已经在一段时间内提供了有效的距离估...

2024-04-02 21:26:58 637

原创探索使用对比损失的孪生网络进行图像相似性比较

点击下方卡片，关注“小白玩转Python”公众号简介在计算机视觉领域，准确地测量图像相似性是一项关键任务，具有广泛的实际应用。从图像搜索引擎到人脸识别系统和基于内容的推荐系统，有效比较和查找相似图像的能力非常重要。Siamese网络与对比损失结合，为以数据驱动方式学习图像相似性提供了强大的框架。在这篇博文中，我们将深入了解Siamese网络的细节，探讨对比损失的概念，并探讨这两个组件如何共同工作以...

2024-04-01 21:28:00 1119

原创基于 EasyOCR 微调 CRAFT 文本检测模型

点击下方卡片，关注“小白玩转Python”公众号EasyOCR 中的 CRAFT 模型（用于文本检测的字符区域感知）用于检测图像内文本的边界框。然后，这些边界框被发送到 EasyOCR 的文本识别器模块，以读取每个图像中的文本。CRAFT 模块和文本识别器共同构成了 EasyOCR 的管道。在上一篇文章中，我向我们展示了如何微调文本识别器模块，而本文将重点介绍如何微调 EasyOCR 的 CRAF...

2024-03-31 21:08:11 1067

原创纵观全局：YOLO 助力实时物体检测原理及代码

点击下方卡片，关注“小白玩转Python”公众号YOLO 的全称“You Only Look Once”，它通过引入一种与传统方法截然不同的方法，彻底改变了物体检测领域。YOLO 摆脱了传统的提案驱动技术，创新地在一次传递中直接从完整图像中预测边界框和类别概率。这种突破常规的做法不仅简化了物体检测流程，还显著加快了检测速度，使实时检测不仅成为可能，而且成为现实。概念概述YOLO 创新方法的核心是将...

2024-03-29 20:30:26 1085

原创 CNN的原理详解及代码实战（人手都会）

点击下方卡片，关注“小白玩转Python”公众号Conv-Net 的简单分类架构介绍卷积神经网络 (CNN) 彻底改变了计算机视觉领域，成为图像和视频分析应用的基石。在本文中，我们将深入研究使 CNN 强大的关键组件和操作，探索卷积、最大池化、步长、填充、上采样、下采样等概念。此外，我们将使用 Python 和流行的深度学习框架讨论数据集上的简单 CNN 模型。卷积神经网络 (CNN) 由各种类...

2024-03-28 20:43:42 1208

原创 YOLOv8 检测、分割模型的 OpenVINO 部署

点击下方卡片，关注“小白玩转Python”公众号为什么需要OpenVINO?OpenVINO（Open Visual Inference and Neural network Optimization）是英特尔推出的一种深度学习推理工具包，旨在优化和加速深度学习模型的推理过程。将模型转换为OpenVINO格式的主要优势有：性能优化：OpenVINO能够针对英特尔硬件进行优化，包括 CPU、GPU、...

2024-03-27 20:37:47 442 1

原创 ViT：使用 HuggingFace 和 PyTorch 对 Vision Transformer 进行微调实战

点击下方卡片，关注“小白玩转Python”公众号探索 CIFAR-10 图像分类介绍你一定听说过“Attention is all your need”？Transformers 最初从文本开始，现在已无处不在，甚至在图像中使用了一种称为视觉变换器 (ViT) 的东西，这种变换器最早是在论文《一张图片胜过 16x16 个单词：用于大规模图像识别的 Transformers》中引入的。这不仅仅是另一...

2024-03-26 20:49:52 1224

原创 DINOv2：结合FAISS进行图像相似性搜索

早些时候，MetaAI 通过开源 DINOv2 在计算机视觉领域取得了一个重要的里程碑，该模型是在 1.42 亿张图像的庞大数据集上训练的。此版本使 DINOv2 与 OpenAI CLIP直接竞争，初步评估表明它甚至可能在某些任务上超越它。然而，浏览现有文档可能难以利用 DINOv2 的功能。在本文中，我们将探讨图像相似性任务需要采取的步骤，并对其性能进行全面评估。图像相似性的意义在之前的故事...

2024-03-23 09:34:53 585

原创论文：YOLOv9 — 使用可编程梯度信息学习你想学的东西

论文地址：https://arxiv.org/abs/2402.13616代码地址：https://github.com/WongKinYiu/yolov9本文介绍了一种名为可编程梯度信息（PGI）的新概念，以解决深度学习网络中数据丢失的问题，因为数据经过逐层特征提取和空间转换。PGI旨在为计算目标函数提供完整的输入信息，确保网络权重更新的可靠梯度信息。除了PGI，作者们还提出了一种名为广义高效层...

2024-03-22 10:10:25 812

原创基于 Google MediaPipe 进行人体姿势估计演示

用于人体姿势估计的 MediaPipe 演示MediaPipe简介MediaPipe是一个开源框架，用于构建跨平台、多模式应用机器学习管道。它由 Google 开发，旨在促进基于机器学习的功能的快速开发和部署，特别关注音频、视频和时间序列数据。我可以将 MediaPipe 用于商业用途来运营我的业务吗？我们可以将MediaPipe用于商业目的。 MediaPipe 是根据 Apache Licen...

2024-03-19 09:57:04 1111

原创 PicoDet：专为移动CPU优化的快速目标检测

概述PicoDet是在2021年11月发布的一种机器学习模型。它将最近在目标检测模型方面的研究成果集成到一个轻量级模型中，以在移动CPU上实现高准确度和高速目标检测。COCO dataset架构PicoDet通过使用轻量级结构作为骨干，提高了特征提取的速度。通过改进损失函数，它还提高了训练的稳定性和效率。最近几年来，基于无锚点的检测器在目标检测中变得越来越受欢迎，而全卷积单阶段目标检测（FCOS）...

2024-03-15 09:58:16 1122

原创医学YOLOv8 | 脑肿瘤检测实战

在医疗保健领域，准确和高效地识别脑肿瘤是一个重大挑战。本文中，我们将探讨一种使用 YOLOv8，一种先进的目标检测模型，将脑肿瘤进行分类的新方法，其准确率达到了 99%。通过将深度学习与医学图像相结合，我们希望这种方法将提高脑肿瘤识别的速度和准确性。首先，我们将从 Kaggle 获取脑肿瘤分类数据集。然后，我们将利用各种数据清理方法来准备数据，以输入到我们的模型中。接下来，我们将从 Ultraly...

2024-03-15 09:58:16 1062

空空如也

空空如也