自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(434)
  • 收藏
  • 关注

原创 ******写在前言******

中午吃饭的时候,和一位公司的前辈聊起来知识繁碎的问题。我:总觉得自己从上学到工作,什么都只是接触了一点点,好多学过的东西也只是记在了小本本上,后来就找不到了。前辈:你可以写到自己的博客上。我:可是博客上精通某个领域的人太多了,和他们比起来,自己写的博客根本就不能看,也害怕自己万一写错了给别人造成误解。前辈:就算不是为了给别人看,自己当作一种记录的方式也挺好的;而且,每篇文章都有它的阅读人群,太高端...

2018-04-27 14:09:17 820 2

原创 基于 YOLOv8 的目标检测实例应用

点击下方卡片,关注“小白玩转Python”公众号通过使用 YOLOv8 目标检测和侦察无人机拍摄的航空图像来利用地理空间情报(GEOINT)统计敌方飞机,从而规划军事行动。使用 YOLOv8 识别敌方空军基地的飞机在本文中,我们将深入探讨地理空间情报(GEOINT)作为跟踪敌方军事空军基地的工具。通过有效地监控这些位置及其飞机,可以为针对它们的作战行动进行充分准备。YOLOv8 目标检测YOLOv...

2024-05-17 20:05:10 391

原创 基于深度学习的实时视频处理 | 入门指南

点击下方卡片,关注“小白玩转Python”公众号本文是一份从0到100的指南,旨在帮助你在深度学习中开始视频处理。包括图像处理、视频格式、重新编码、通过HTTP、WebSockets和WebRTC进行流媒体传输。近来,整个机器学习领域似乎被大型语言模型(LLM)和检索增强生成(RAG)所掩盖。虽然许多用例可以从这些新的基础模型中受益,但在非文本数据方面仍存在差距。我常把当前的机器学习阶段比作汽车工...

2024-05-16 20:01:18 577

原创 使用OpenCV GUI清理数据集 | 为目标检测模型创建更好的数据集

点击下方卡片,关注“小白玩转Python”公众号在深度学习中有几件重要的事情,我认为数据是最关键的。如果没有合适的数据,要取得好的结果是非常困难的。即使你用强大的预训练模型和GPU训练模型,你的模型也可能表现不佳。在本文中,我将讨论如何获取数据集、分析数据集并使用简单的OpenCV GUI应用程序对其进行清理。我将使用Python作为编程语言。标记的图像获取数据的最佳网站有两种主要方法可以获取数据...

2024-05-15 20:17:01 563

原创 完整的文本检测与识别 | 附源码

点击下方卡片,关注“小白玩转Python”公众号另外,你还记得每家店铺都有独特的名字书写方式吗?像Gucci、Sears、Pantaloons和Lifestyle这样的知名品牌在其商标中使用了曲线或圆形字体。虽然这一切吸引了顾客,但对于执行文本检测和识别的深度学习(DL)模型来说,它确实提出了挑战。当你读取横幅上的文字时,你会怎么做?你的眼睛首先会检测到文本的存在,找出每个字符的位置,然后识别这些...

2024-05-09 20:28:33 401

原创 一文读懂三维点云分割

点击下方卡片,关注“小白玩转Python”公众号什么是点云分割?点云是世界的一种非结构化三维数据表示,通常由激光雷达传感器、立体相机或深度传感器采集。它由一系列单个点组成,每个点由 x、y 和 z 坐标定义。自动驾驶模型的点云分割(来源:https://github.com/PJLab-ADG/PCSeg)点云分割将这些点聚类成表示环境中的表面、物体或结构的不同语义部分。其目标是根据在三维场景中...

2024-05-07 20:19:47 601

原创 基于 PyTorch 的人脸关键点检测

点击下方卡片,关注“小白玩转Python”公众号计算机真的能理解人脸吗?你是否想过Instagram是如何给你的脸上应用惊人的滤镜的?该软件检测你脸上的关键点并在其上投影一个遮罩。本教程将文章你如何使用PyTorch构建一个类似的软件。数据集在本教程中,我们将使用官方的DLib数据集,其中包含6666张尺寸不同的图像。此外,labels_ibug_300W_train.xml(随数据集提供)包含每...

2024-05-05 20:09:48 673

原创 使用回调函数训练YOLO模型

点击下方卡片,关注“小白玩转Python”公众号大多数人可能熟悉如何训练计算机视觉模型,比如流行的YOLO模型,甚至知道如何使用这些模型进行预测。但你知道我们可以通过回调函数为这些模型增加一些灵活性,以便在模型训练和模型推断中使用吗?大多数最先进的(SOTA)YOLO模型,如YOLOv8和YOLO-NAS,都实现了回调函数,我们可以调整这些函数以有效地利用我们的计算机视觉模型的训练和推断。考虑以下...

2024-05-04 20:01:06 533 1

原创 视觉自回归建模:通过下一尺度预测实现可扩展图像生成 |论文Review

点击下方卡片,关注“小白玩转Python”公众号论文链接:https://arxiv.org/abs/2404.02905代码链接:https://github.com/FoundationVision/VAR项目链接:https://var.vision/视觉自回归建模是一种新的图像自回归学习方法,通过关注从粗到细的尺度预测,摆脱了传统的逐像素扫描方法来预测下一个标记。这种方法使得自回归Tran...

2024-04-30 20:29:28 668

原创 小目标检测实战

点击下方卡片,关注“小白玩转Python”公众号利用切片辅助的超级推断目标检测是计算机视觉中的基本任务之一。在高层次上,它涉及预测图像中物体的位置和类别。像You-Only-Look-Once(YOLO)系列中的最先进(SOTA)深度学习模型已经达到了令人瞩目的准确度。然而,目标检测中一个众所周知的挑战是小物体。在本文中,您将学习如何使用切片辅助的超级推断(SAHI)来检测数据集中的小物体。我们将...

2024-04-28 20:39:42 733 1

原创 图像分割 — 初学者指南

点击下方卡片,关注“小白玩转Python”公众号图像分割是一种计算机视觉技术,它为图像中的每个像素分配一个标签,使得具有相同标签的像素具有某些特征。例如,在街景中,所有属于汽车的像素可能被标记为一种颜色,而属于道路的像素可能被标记为另一种颜色。但是,要理解图像分割以及它为什么有用,让我们回到基础知识……分类器可爱的小狗但是如果我们想要知道狗到底在哪里呢?一种方法是在狗周围画一个边界框,这称为目标检...

2024-04-25 20:00:46 591

原创 ViTDet — 图像基础模型的首选架构

点击下方卡片,关注“小白玩转Python”公众号截至2024年1月,ViTDet是所有视觉任务的首选架构。它被用于“segment-anything”。在ViTAE-Transformer中,我们在语义分割、目标检测、人体姿势、抠图、遥感等多个任务上取得了最先进的结果。理解这个骨干架构将有助于我们根据任务选择最佳参数。ViTDet的设计是为了强调使用变换器进行目标检测的专门架构的必要性。从某种意义...

2024-04-24 20:41:06 783

原创 简化目标检测:使用 Grounding DINO 对自定义数据集进行标注

点击下方卡片,关注“小白玩转Python”公众号对于像 YOLO 这样的模型,使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据,并围绕其定义标注,那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO!这种方法的突破之处在于,它将基于 Transformer 的检测器 DINO 与基础预训练相结合,可以从有限的人类输入中检测到任意对象。这篇简易...

2024-04-22 20:09:29 1032

原创 新目标检测模型YOLOv9实践 — 训练自定义数据

点击下方卡片,关注“小白玩转Python”公众号新YOLOv9模型的更新YOLO系列模型有了一个新成员,在2024年2月发布了一篇新论文,标题为“YOLOv9: 使用可编程梯度信息学习您想要学习的内容”,详细论文可以在这个链接中查看:https://arxiv.org/pdf/2402.13616.pdf。以下是一个快速概述:解决方案的核心是引入了可编程梯度信息(PGI)和一种新的轻量级网络架构,...

2024-04-21 20:31:58 652

原创 YOLOv9:​在自定义数据上进行图像分割训练

点击下方卡片,关注“小白玩转Python”公众号在快速发展的计算机视觉领域,物体分割在从图像中提取有意义信息方面发挥着重要作用。在各种分割算法中,YOLOv9 已经成为一个强大而灵活的解决方案,提供了高效的分割能力和出色的准确性。在这个全面的指南中,我们将深入探讨如何在自定义数据集上训练 YOLOv9 进行物体分割,并对测试数据进行推断。通过本教程,您将深入了解 YOLOv9 的分割机制,并学会如...

2024-04-20 20:02:52 1077

原创 使用OpenCV和Python掌握计算机视觉:深入探讨高级技术及代码演示

点击下方卡片,关注“小白玩转Python”公众号在不断发展的技术领域中,计算机视觉作为一种变革性力量脱颖而出,使机器能够解释和理解视觉信息。OpenCV(开源计算机视觉库)成为该领域的基石,提供了丰富的工具和功能,用于图像和视频处理。在本文中,我们将探索OpenCV的基础知识,并深入研究9个高级Python代码示例,展示其多样性和强大功能。理解OpenCVOpenCV是一个开源的计算机视觉和机器学...

2024-04-18 23:12:07 744

原创 Albumentations库:为自定义数据进行数据增强

点击下方卡片,关注“小白玩转Python”公众号为什么在深度学习中使用增强?深度学习和计算机视觉中的增强已经成为至关重要的几个原因。首先,它丰富了训练数据集,使模型能够从更多样化的示例中学习,这在标记数据有限时尤为重要。增强还有助于减少过拟合,因为它在数据中引入变化,使模型更具鲁棒性,适应未见过的真实场景。此外,增强模拟了计算机视觉中的真实世界条件,例如光照,视角或比例的变化,确保模型在实际应用中...

2024-04-15 20:05:25 1011

原创 基于 YOLOv9 的自定义数据集目标检测

点击下方卡片,关注“小白玩转Python”公众号在本指南中,我们将展示使用自定义数据集训练 YOLOv9 模型的过程。具体而言,我们将提供一个示例,重点介绍训练一个视觉模型来识别篮球场上的篮球运动员。但是,这个指南是多功能的,允许您将其应用于您选择的任何数据集。什么是 YOLOv9?随着计算机视觉技术不断发展,YOLOv9 出现作为最新的进展,由 Chien-Yao Wang、I-Hau Yeh ...

2024-04-12 20:14:36 669

原创 OpenCV 对象跟踪:均值漂移和Cam漂移算法

点击下方卡片,关注“小白玩转Python”公众号有多种跟踪和检测对象的方法,而OpenCV提供了各种算法和函数来实现这一目的。在本文中,我将使用均值漂移和Cam漂移算法创建一个对象跟踪器。这两种算法利用对象的颜色直方图,并试图在每一帧中找到最佳匹配的直方图。Cam漂移均值漂移和Cam漂移均值漂移和Cam漂移相似,但产生不同的结果。均值漂移产生更简单的结果,它不能处理旋转,并且不能正确检测对象大小变...

2024-04-11 20:00:46 355

原创 基于 Python 和 HuggingFace Transformers 的目标检测

点击下方卡片,关注“小白玩转Python”公众号YOLO!如果你对机器学习感兴趣,这个术语一定不陌生。确实,You Only Look Once已经成为过去几年中目标检测的默认方法之一。受到卷积神经网络取得的进展推动,许多版本的目标检测方法已经被创建。然而,近年来,一个竞争对手出现在了视野中——那就是在计算机视觉中使用基于Transformer的模型。更具体地说,是使用Transformer进行目...

2024-04-10 20:04:28 788

原创 微调语言模型识别收据图片并保存至JSON/XML

点击下方卡片,关注“小白玩转Python”公众号动机将收据图像转换为JSON或XML对象的动机在于以结构化和组织良好的方式更容易存储、分析和操作数据。JSON(JavaScript对象表示)和XML(可扩展标记语言)都是轻量级的数据交换格式,易于人类阅读和编写,也易于机器解析和生成。通过将收据图像转换为JSON或XML对象,数据可以轻松存储在数据库中或通过互联网传输,使其更易于访问和用于各种应用程...

2024-04-09 20:51:37 732

原创 在微调时保存 embeddings 演变过程,并以动画演示

点击下方卡片,关注“小白玩转Python”公众号在机器学习领域,视觉变换器(Vision Transformers,ViT)是一种用于图像分类的模型类型。与传统的卷积神经网络不同,ViT使用了最初设计用于自然语言处理任务的变换器架构来处理图像。对这些模型进行微调以获得最佳性能可能是一个复杂的过程。在先前的一篇文章中,我使用动画来演示在微调过程中embedding发生的变化。这是通过对embeddi...

2024-04-06 20:42:34 449

原创 基于 YoLo v8 的区域拖动奶牛计数器

点击下方卡片,关注“小白玩转Python”公众号计算机视觉是一个跨学科的科学领域,涉及计算机如何从数字图像或视频中获得高层次的理解。从工程的角度来看,它致力于理解并自动化人类视觉系统可以执行的任务。如今,任务分类、目标检测、分割和关键点检测是主要的实时计算机视觉应用。那么,大家认为它是如何发展起来的呢?首先,我们将简要讨论计算机视觉的主要问题。我认为在看了上面的图片之后,你对与计算机视觉挑战相关的...

2024-04-04 22:04:20 274

原创 使用 BeeWare 构建 Python GUI 应用程序

点击下方卡片,关注“小白玩转Python”公众号本文探讨使用 BeeWare 套件通过 Python 构建应用程序的基础知识,详细介绍其功能、优点以及与其他流行框架的比较。由于 Python 语言的简单性和多功能性,用它构建应用程序变得越来越流行。在 Python 开发人员可用的各种框架和工具中,BeeWare 脱颖而出,成为独特而强大的选择。本文探讨使用 BeeWare 套件通过 Python ...

2024-04-03 19:57:51 957

原创 基于 MiDaS和Python 开始做深度估计

点击下方卡片,关注“小白玩转Python”公众号测量物体与相机之间的距离在计算机视觉领域中面临着重大挑战,原因包括2D图像中缺乏固有深度信息、透视失真、物体尺寸变化、相机校准要求以及在复杂场景中的遮挡。例如,通过透视投影进行的距离估计依赖于传感器尺寸、焦距和物体的实际高度等变量。这些未知变量的计算增加了任务的复杂性。物体距离的公式一系列基于传统方法和深度学习的方法已经在一段时间内提供了有效的距离估...

2024-04-02 21:26:58 600

原创 探索使用对比损失的孪生网络进行图像相似性比较

点击下方卡片,关注“小白玩转Python”公众号简介在计算机视觉领域,准确地测量图像相似性是一项关键任务,具有广泛的实际应用。从图像搜索引擎到人脸识别系统和基于内容的推荐系统,有效比较和查找相似图像的能力非常重要。Siamese网络与对比损失结合,为以数据驱动方式学习图像相似性提供了强大的框架。在这篇博文中,我们将深入了解Siamese网络的细节,探讨对比损失的概念,并探讨这两个组件如何共同工作以...

2024-04-01 21:28:00 1106

原创 基于 EasyOCR 微调 CRAFT 文本检测模型

点击下方卡片,关注“小白玩转Python”公众号EasyOCR 中的 CRAFT 模型(用于文本检测的字符区域感知)用于检测图像内文本的边界框。然后,这些边界框被发送到 EasyOCR 的文本识别器模块,以读取每个图像中的文本。CRAFT 模块和文本识别器共同构成了 EasyOCR 的管道。在上一篇文章中,我向我们展示了如何微调文本识别器模块,而本文将重点介绍如何微调 EasyOCR 的 CRAF...

2024-03-31 21:08:11 1045

原创 纵观全局:YOLO 助力实时物体检测原理及代码

点击下方卡片,关注“小白玩转Python”公众号YOLO 的全称“You Only Look Once”,它通过引入一种与传统方法截然不同的方法,彻底改变了物体检测领域。YOLO 摆脱了传统的提案驱动技术,创新地在一次传递中直接从完整图像中预测边界框和类别概率。这种突破常规的做法不仅简化了物体检测流程,还显著加快了检测速度,使实时检测不仅成为可能,而且成为现实。概念概述YOLO 创新方法的核心是将...

2024-03-29 20:30:26 1079

原创 CNN的原理详解及代码实战(人手都会)

点击下方卡片,关注“小白玩转Python”公众号Conv-Net 的简单分类架构介绍卷积神经网络 (CNN) 彻底改变了计算机视觉领域,成为图像和视频分析应用的基石。在本文中,我们将深入研究使 CNN 强大的关键组件和操作,探索卷积、最大池化、步长、填充、上采样、下采样等概念。此外,我们将使用 Python 和流行的深度学习框架讨论数据集上的简单 CNN 模型。卷积神经网络 (CNN) 由各种类...

2024-03-28 20:43:42 1179

原创 YOLOv8 检测、分割模型的 OpenVINO 部署

点击下方卡片,关注“小白玩转Python”公众号为什么需要OpenVINO?OpenVINO(Open Visual Inference and Neural network Optimization)是英特尔推出的一种深度学习推理工具包,旨在优化和加速深度学习模型的推理过程。将模型转换为OpenVINO格式的主要优势有:性能优化:OpenVINO能够针对英特尔硬件进行优化,包括 CPU、GPU、...

2024-03-27 20:37:47 436 1

原创 ViT:使用 HuggingFace 和 PyTorch 对 Vision Transformer 进行微调实战

点击下方卡片,关注“小白玩转Python”公众号探索 CIFAR-10 图像分类介绍你一定听说过“Attention is all your need”?Transformers 最初从文本开始,现在已无处不在,甚至在图像中使用了一种称为视觉变换器 (ViT) 的东西,这种变换器最早是在论文《一张图片胜过 16x16 个单词:用于大规模图像识别的 Transformers》中引入的。这不仅仅是另一...

2024-03-26 20:49:52 1172

原创 DINOv2:结合FAISS进行图像相似性搜索

早些时候,MetaAI 通过开源 DINOv2 在计算机视觉领域取得了一个重要的里程碑,该模型是在 1.42 亿张图像的庞大数据集上训练的。此版本使 DINOv2 与 OpenAI CLIP直接竞争,初步评估表明它甚至可能在某些任务上超越它。然而,浏览现有文档可能难以利用 DINOv2 的功能。在本文中,我们将探讨图像相似性任务需要采取的步骤,并对其性能进行全面评估。图像相似性的意义在之前的故事...

2024-03-23 09:34:53 572

原创 论文:YOLOv9 — 使用可编程梯度信息学习你想学的东西

论文地址:https://arxiv.org/abs/2402.13616代码地址:https://github.com/WongKinYiu/yolov9本文介绍了一种名为可编程梯度信息(PGI)的新概念,以解决深度学习网络中数据丢失的问题,因为数据经过逐层特征提取和空间转换。PGI旨在为计算目标函数提供完整的输入信息,确保网络权重更新的可靠梯度信息。除了PGI,作者们还提出了一种名为广义高效层...

2024-03-22 10:10:25 809

原创 基于 Google MediaPipe 进行人体姿势估计演示

用于人体姿势估计的 MediaPipe 演示MediaPipe简介MediaPipe是一个开源框架,用于构建跨平台、多模式应用机器学习管道。它由 Google 开发,旨在促进基于机器学习的功能的快速开发和部署,特别关注音频、视频和时间序列数据。我可以将 MediaPipe 用于商业用途来运营我的业务吗?我们可以将MediaPipe用于商业目的。 MediaPipe 是根据 Apache Licen...

2024-03-19 09:57:04 1099

原创 PicoDet:专为移动CPU优化的快速目标检测

概述PicoDet是在2021年11月发布的一种机器学习模型。它将最近在目标检测模型方面的研究成果集成到一个轻量级模型中,以在移动CPU上实现高准确度和高速目标检测。COCO dataset架构PicoDet通过使用轻量级结构作为骨干,提高了特征提取的速度。通过改进损失函数,它还提高了训练的稳定性和效率。最近几年来,基于无锚点的检测器在目标检测中变得越来越受欢迎,而全卷积单阶段目标检测(FCOS)...

2024-03-15 09:58:16 1099

原创 医学YOLOv8 | 脑肿瘤检测实战

在医疗保健领域,准确和高效地识别脑肿瘤是一个重大挑战。本文中,我们将探讨一种使用 YOLOv8,一种先进的目标检测模型,将脑肿瘤进行分类的新方法,其准确率达到了 99%。通过将深度学习与医学图像相结合,我们希望这种方法将提高脑肿瘤识别的速度和准确性。首先,我们将从 Kaggle 获取脑肿瘤分类数据集。然后,我们将利用各种数据清理方法来准备数据,以输入到我们的模型中。接下来,我们将从 Ultraly...

2024-03-15 09:58:16 1052

原创 结合检测、人员追踪和姿势估计的案例分析

我们生活在一个不断发展的世界,安全已成为一项基本优先事项。在这个不断变化的时代,安全问题已经成为焦点。对安全的日益关注在各种公共场所明显,包括机场、学校、购物中心等等。这种关切源于人群中广泛存在的枪支。令人震惊的是,仅在2023年初,美国就因与枪支有关的暴力事件发生了超过2万起致命案件。这些令人担忧的统计数字强调了我们社会迫切需要进行讨论和采取行动,以提高安全性并遏制枪支在我们社会中造成的毁灭性影...

2024-03-14 10:43:38 1010

原创 基于Transformer的经典目标检测之DETR

背景DETR,即DEtection TRansformer,是由尼古拉斯·卡里翁及其团队于2020年在Facebook AI Research首次提出的,它在目标检测领域开创了一种新的波潮。虽然目前并未保持最先进(State Of The Art)的地位,但DETR对目标检测任务的创新重新定义显著影响了后续的模型,例如CO-DETR,它是当前LVIS上目标检测和实例分割的最先进技术。摆脱传统的一对...

2024-03-13 10:17:57 984

原创 基于 YOLOv8 的动物物种检测

简介动物在车辆碰撞中被撞死,这种现象被称为路边死亡,是一个重要的全球问题,导致野生动物死亡率高。仅在美国,每天有超过100万种脊椎动物在车辆碰撞中丧生。全球范围内,这一数字每天超过550万,年总数超过20亿。最近的一项研究已经确定了易受危害的动物种群,例如豹(面临由路边死亡引发的绝种风险增加了83%)、巴西狼(增加了34%的绝种风险)、巴西猫(增加了0至75%的绝种风险)和南非鬣狗(增加了0至75...

2024-03-13 10:17:57 420

原创 基于机器学习和OpenCV的激光雷达数据分割和分类

背景目前,先进传感器的使用使得在自然资源监测方面能够以高效的方式进行创新,激光雷达技术就是这样一种情况。激光雷达技术是GPS技术、惯性测量单元和激光传感器的集成结果,用于通过收集以三维坐标(x、y、z)呈现的数据来测量可变距离的范围。这些数据用于定义地表,并生成数字地形模型(DTM)和数字地表模型(DSM),从中生成冠高模型(CHM),该模型等于地面和地面上方对象顶部之间的高度或残余距离(图1)。...

2024-03-12 10:01:31 1053

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除