自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(460)
  • 收藏
  • 关注

原创 ******写在前言******

中午吃饭的时候,和一位公司的前辈聊起来知识繁碎的问题。我:总觉得自己从上学到工作,什么都只是接触了一点点,好多学过的东西也只是记在了小本本上,后来就找不到了。前辈:你可以写到自己的博客上。我:可是博客上精通某个领域的人太多了,和他们比起来,自己写的博客根本就不能看,也害怕自己万一写错了给别人造成误解。前辈:就算不是为了给别人看,自己当作一种记录的方式也挺好的;而且,每篇文章都有它的阅读人群,太高端...

2018-04-27 14:09:17 829 2

原创 安装lap和cython_bbox失败了很多次!!!终于被我发现了!

再见!

2024-07-11 16:47:30 234

原创 解决NLP任务的T为什么可以应用于计算机视觉?

点击下方卡片,关注“小白玩转Python”公众号几乎所有的自然语言处理任务,从语言建模和masked词预测到翻译和问答,在2017年Transformer架构首次亮相后都经历了革命性的变化。Transformer在计算机视觉任务中也表现出色,只用了2-3年的时间。在这篇文章中,我们探索了两种基础架构,它们使Transformer能够闯入计算机视觉的世界。目录视觉Transformer主要思想操作混...

2024-07-02 20:07:17 902

原创 视频对象计数器实战

点击下方卡片,关注“小白玩转Python”公众号使用检测和跟踪技术一步步指导如何计算树上漫游的蚂蚁数量。引言在视频中计数对象是一项具有挑战性的计算机视觉任务。与在静态图像中计数对象不同,视频涉及额外的复杂性,因为对象可以移动,被遮挡,或在不同时间出现和消失,这使得计数过程变得复杂。在本教程中,我们将演示如何使用对象检测和跟踪技术来计算沿树移动的蚂蚁数量。我们将利用Ultralytics平台集成YO...

2024-07-01 20:19:30 1019

原创 使用 MediaPipe 实现实时手部追踪和手势识别 | Rerun展示

点击下方卡片,关注“小白玩转Python”公众号在本文中,我将展示一个使用 MediaPipe Python 和 Rerun SDK 进行手部追踪和手势识别的示例。如果您有兴趣深入了解并扩展您的知识,我将指导您如何安装 MediaPipe Python 和 Rerun SDK 来进行手部追踪、识别不同手势并可视化数据。因此,您将学习到:如何安装 MediaPipe Python 和 Rerun如何...

2024-06-25 20:33:08 957 1

原创 交互式图形用户界面(GUI)应用程序 | 基于颜色的对象检测和追踪

点击下方卡片,关注“小白玩转Python”公众号大多数时候,用于对象检测和追踪的都是深度学习模型。的确,深度学习非常强大,但也存在其他的对象检测和追踪方法。在本文中,我将展示如何创建一个GUI,用于使用它们的颜色来检测和追踪对象。检测鱼类颜色可以用不同的格式表示。有多种方式来表示颜色:RGB(红,绿,蓝)BGR(蓝,绿,红)HSV(色调,饱和度,值)HSV 颜色空间HSV代表色调、饱和度和值。这是...

2024-06-24 20:15:51 387

原创 使用 YOLO 和计算机视觉进行目标跟踪 | 附完整代码

点击下方卡片,关注“小白玩转Python”公众号YOLO 是一种能够实时进行目标检测的深度学习算法。您可以使用预训练的 YOLO 模型,如 YOLOv8 或 YOLOv9,或者在需要时在自定义数据集上训练自己的模型。在本文中,我将带您了解如何使用预训练的 YOLO 模型进行目标跟踪。这是最简单的教程,我们只处理简单的目标检测。让我们看看目标检测所涉及的步骤。我们将加载模型我们将加载视频我们将逐帧提...

2024-06-20 20:16:18 389

原创 基于 Microsoft Phi3 视觉语言模型的文档数据提取

点击下方卡片,关注“小白玩转Python”公众号本文使用最新版本的 Microsoft Phi3 视觉语言模型进行零样本 OCR 应用的示例,展示了如何通过将 Phi3 模型应用于相关文档图像,提取身份卡、驾驶证或健康保险卡等文档的数据。Phi3 模型是 Microsoft 小型语言模型的最新版本。它有四个变种(更多信息请查看此链接:https://azure.microsoft.com/en-u...

2024-06-18 20:02:05 776

原创 基于 U-Net 的图像分割

点击下方卡片,关注“小白玩转Python”公众号图像分割是一种将图像划分为不同区域或对象的过程。它通常在像素级别进行,通过将图像中具有相似特征的区域分组或定义对象的边界来完成。这是一种识别和解析图像中不同对象或特征的方法。假设一位医学专业人士正在检查脑部扫描图像,试图找到潜在的癌性病变。这就是图像分割发挥作用的地方。分割过程用于识别图像中的不同组织和结构,在区分癌细胞和其他正常组织方面发挥着重要作...

2024-06-16 20:02:27 733

原创 YOLO v10 是目前最好的吗?

点击下方卡片,关注“小白玩转Python”公众号YOLO(You Only Look Once,你只看一眼)因其快速的对象检测算法而闻名。它的速度和效率使其成为计算机视觉(CV)领域中对象检测的标准方法。YOLO 可以实时处理图像,使其非常适合自动驾驶、安全监控和零售分析等应用。YOLO 是如何工作的?考虑图像分类的场景,目标是确定图像是否包含狗或人。当涉及到图像分类,我们应该确定它是否是狗还是人...

2024-06-13 20:26:19 1200

原创 YOLO 的“数学”实现

点击下方卡片,关注“小白玩转Python”公众号YOLO(You Only Look Once)是一个标志性的目标检测模型,可以快速分类并定位图像中的多个对象。本文总结了YOLO模型中所有关键的数学操作。第一步:定义输入要使用YOLO模型,首先必须将RGB图像转换为448 x 448 x 3的张量。我们将使用简化的5 x 5 x 1张量,这样数学计算会更简洁一些。第二步:层归一化神经网络通常在归...

2024-06-12 20:17:59 717

原创 任务自动化 — 用Python创建Crontab任务

点击下方卡片,关注“小白玩转Python”公众号如果你不知道Crontab是什么,它是一个用于Unix和类Unix操作系统的实用工具,允许你在特定时间自动安排和执行任务。Crontab的一个很大优势是,它在崩溃或重启后仍然有效。Crontab条目保存在由cron守护进程读取的文件中,该守护进程在系统启动时自动启动。本文的目的是使用python-crontab库编写Python程序的执行计划。这个库...

2024-06-11 20:48:10 689

原创 Python 深度探讨 *args

点击下方卡片,关注“小白玩转Python”公众号作为Python中最独特的语法之一,*args 在编程过程中给我们带来了很多灵活性和便利性。我认为它们反映了“Pythonic”和“Python之禅”。然而,我发现它们对于学习者(尤其是初学者)来说很难理解。在本文中,我将尽力解释Python中这个标志性的概念,并基于我的知识提供实际用例。我希望这能帮助更好地理解它。1. “*args” 究竟是什么?...

2024-06-09 20:08:03 1040

原创 YOLO 中 anchors 和 grids 的故事

点击下方卡片,关注“小白玩转Python”公众号在本文中,我们将解析 YOLOv5 目标检测模型的三个检测头的输出,并理解网格和锚点的概念。您可以将这一概念推广到其他版本的 YOLO。值得注意的是,所有 YOLOv5 模型(s、m、l、x)的三个检测头的输出张量形状都是相同的。上图是 YOLOv5s 模型转换为 ONNX 格式后的 Netron 表示。图像显示了模型的边界框解码部分,我们将尝试理解...

2024-06-07 20:02:25 612

原创 基于 MediaPipe 的 2D 和 3D 的人体姿态追踪:Rerun 展示

点击下方卡片,关注“小白玩转Python”公众号概述我们探讨一个使用 MediaPipe 在 2D 和 3D 中追踪人体姿态的用例。使这次探索更加有趣的是通过开源可视化工具 Rerun 提供的可视化功能,可以全方位展示人体姿态的动态。在这篇博文中,您将学习如何使用 MediaPipe 追踪 2D 和 3D 的人体姿态,并探索 Rerun 的可视化能力。人体姿态追踪人体姿态追踪是计算机视觉中的一项任...

2024-06-06 20:20:43 952

原创 使用自定义数据训练 YOLOv10

点击下方卡片,关注“小白玩转Python”公众号在计算机视觉快速发展的世界中,YOLO(You Only Look Once)系列在实时目标检测方面一直设定了基准。最新版本YOLOv10有望进一步突破这些界限。在这篇博客文章中,我们将探讨YOLOv10的架构,重点介绍其主要特性,讨论它如何优于其前辈,并在自定义数据集上进行训练。介绍YOLOv10在其前代基础上进行改进,解决了后处理和模型架构中的局...

2024-06-04 20:02:03 1308 1

原创 YOLOv10:无NMS实时目标检测的先锋

点击下方卡片,关注“小白玩转Python”公众号来自中国清华大学的研究人员推出了YOLOv10,这是一种具有卓越进步的创新模型,展示了在计算机视觉领域的重要突破。这次发布体现了让AI既易于使用又功能强大的承诺,标志着重大进展和改进。YOLO(You Only Look Once)系列一直是实时目标检测的基准,成功平衡了计算成本和检测性能。尽管在架构设计和优化策略方面取得了进展,但对非最大值抑制(N...

2024-06-03 20:19:44 503

原创 InsightFace | 基于 AI 增强的人脸检测

点击下方卡片,关注“小白玩转Python”公众号概述我将使用InsightFace,这是一个以其在复杂面部分析任务中的卓越表现而闻名的开源AI工具包。该工具包可以帮助完成诸如人脸检测、关键点识别、情感识别、年龄和性别估算以及属性分析等任务。示例!pip install tqdm !pip install numpy!pip install insightface !pip install o...

2024-06-01 20:04:03 842

原创 新一代目标检测来了:YOLOv10 | 理论概要

点击下方卡片,关注“小白玩转Python”公众号YOLO的简史在我们深入探讨YOLOv10之前,让我们回顾一下YOLO的发展历程。YOLO在实时目标检测领域一直是先驱,兼顾速度和准确性。从YOLOv1到YOLOv9,每个版本在架构、优化和数据增强方面都引入了显著的改进。然而,随着模型的发展,某些限制依然存在,特别是对后处理依赖非极大值抑制(NMS),这会减慢推理速度。YOLOv10正面解决了这些挑...

2024-05-31 20:00:23 1035

原创 YOLOv10 自定义数据训练

点击下方卡片,关注“小白玩转Python”公众号在计算机视觉快速发展的世界中,YOLO(You Only Look Once)系列在实时目标检测方面一直设定了基准。最新版本YOLOv10有望进一步突破这些界限。在这篇博客文章中,我们将探讨YOLOv10的架构,重点介绍其主要特性,讨论它如何优于其前辈,并在自定义数据集上进行训练。介绍YOLOv10在其前代基础上进行改进,解决了后处理和模型架构中的局...

2024-05-30 20:21:15 1239

原创 YOLOv10 自定义目标检测 | 理论+实践

点击下方卡片,关注“小白玩转Python”公众号概述YOLOv10 是由清华大学研究人员利用 Ultralytics Python 软件包开发的,它通过改进模型架构并消除非极大值抑制(NMS)提供了一种新颖的实时目标检测方法。这些优化使得模型在保持先进性能的同时,降低了计算需求。大量实验表明,YOLOv10 在各种模型规模上提供了更优的准确率-延迟权衡。正如读过我之前文章的朋友所知道的,我分享了使...

2024-05-30 20:21:15 557

原创 GPT-4o 上线 | 利用它助力图像结构化信息提取

点击下方卡片,关注“小白玩转Python”公众号OpenAI最近发布了GPT-4o——据称是OpenAI最好的AI模型,但价格只有GPT-4的一半!这个新模型提供了实时的多模态能力,涵盖文本、视觉和音频,其智能水平与GPT-4Turbo相同,但效率更高——这意味着它具有更低的延迟,文本生成速度快2倍,而且非常重要的是,它的价格是GPT-4Turbo的一半。动机如果你需要分析图像以收集结构化信息,你...

2024-05-27 20:12:56 434

原创 实现 YOLO 目标计数 | 含代码示例

点击下方卡片,关注“小白玩转Python”公众号在YOLO算法的无数应用中,我们想聚焦于一个真实的场景:道路车辆计数。这个用例对于智能城市的交通规划和决策具有重要意义。在这篇文章中,我们将带您一步步实现YOLO目标检测和计数,使用车辆跟踪作为我们的实际示例。什么是目标计数?目标计数是计算机视觉中的一个关键应用,旨在识别和计数图像或视频中的特定对象,如人、动物或车辆。该技术在计算机视觉中具有广泛的应...

2024-05-24 20:00:23 522 1

原创 计算机视觉 | YOLO 和 SAM 强强联合能干什么大事

点击下方卡片,关注“小白玩转Python”公众号在这篇博客中,我们将探索计算机视觉和图像分析的迷人领域,探讨两种开创性模型之间的动态协同:YOLO(You Only Look Once)和 SAM(Segment Anything Model)。YOLO 因其在目标检测方面的革命性进展而备受赞誉,与在分割领域具有强大实力的 SAM 相结合,承诺带来令人兴奋的能力融合。那么,什么是 SAM(Segm...

2024-05-23 20:00:39 727 1

原创 图像生成技术 | 巧妙用于目标检测任务

点击下方卡片,关注“小白玩转Python”公众号在深度学习中,缺乏足够的训练数据是一个主要问题。对于计算机视觉任务,一个有前景的解决方案是自动生成带注释的合成图像。在本文中,我将首先概述一些用于生成合成图像数据的技术。然后,我们将生成一个不需要手动注释的训练数据集,并使用它来训练一个Faster R-CNN目标检测模型。最后,我们将在真实图像上测试我们训练好的模型。图像生成技术理论上,合成图像是完...

2024-05-22 20:00:27 722

原创 YOLOV9 实例分割自定义数据集训练 | 效果极佳!

点击下方卡片,关注“小白玩转Python”公众号YOLOv9 官方 GitHub:https://github.com/WongKinYiu/yolov9在我们继续之前,让我向您介绍一下 YOLOv9:使用可编程梯度信息学习你想学的内容。这款模型根据2024年2月29日发布的研究论文(https://arxiv.org/pdf/2402.13616.pdf)最近发布。我觉得有趣的是广义高效层聚合网...

2024-05-21 20:32:06 471

原创 探索基于 Hugging Face 的目标检测

点击下方卡片,关注“小白玩转Python”公众号机器学习中的目标检测任务涉及识别图像或视频中特定类别(如人、汽车或动物)的实例,然后通过在它们周围绘制边界框来准确定位这些实例。让我们快速尝试一个模型:我们将在图像中检测猫:from transformers import pipelinemodel = pipeline("object-detection")result = model("ca...

2024-05-20 20:00:10 314

原创 RetinaFace:适用于高分辨率图像的面部检测模型

点击下方卡片,关注“小白玩转Python”公众号概述RetinaFace是一种高精度的面部检测模型,于2019年5月发布,由伦敦帝国理工学院与因其面部识别库而闻名的InsightFace合作开发。详细链接可以参考:https://insightface.ai/该模型计算面部的边界框以及眼睛和嘴巴的关键点。它在不调整大小的情况下完美地处理高分辨率图像,并执行分层检测过程,从而可以在图像中稳健地检测到...

2024-05-19 20:13:44 824

原创 基于 YOLOv8 的目标检测实例应用

点击下方卡片,关注“小白玩转Python”公众号通过使用 YOLOv8 目标检测和侦察无人机拍摄的航空图像来利用地理空间情报(GEOINT)统计敌方飞机,从而规划军事行动。使用 YOLOv8 识别敌方空军基地的飞机在本文中,我们将深入探讨地理空间情报(GEOINT)作为跟踪敌方军事空军基地的工具。通过有效地监控这些位置及其飞机,可以为针对它们的作战行动进行充分准备。YOLOv8 目标检测YOLOv...

2024-05-17 20:05:10 814

原创 基于深度学习的实时视频处理 | 入门指南

点击下方卡片,关注“小白玩转Python”公众号本文是一份从0到100的指南,旨在帮助你在深度学习中开始视频处理。包括图像处理、视频格式、重新编码、通过HTTP、WebSockets和WebRTC进行流媒体传输。近来,整个机器学习领域似乎被大型语言模型(LLM)和检索增强生成(RAG)所掩盖。虽然许多用例可以从这些新的基础模型中受益,但在非文本数据方面仍存在差距。我常把当前的机器学习阶段比作汽车工...

2024-05-16 20:01:18 678

原创 使用OpenCV GUI清理数据集 | 为目标检测模型创建更好的数据集

点击下方卡片,关注“小白玩转Python”公众号在深度学习中有几件重要的事情,我认为数据是最关键的。如果没有合适的数据,要取得好的结果是非常困难的。即使你用强大的预训练模型和GPU训练模型,你的模型也可能表现不佳。在本文中,我将讨论如何获取数据集、分析数据集并使用简单的OpenCV GUI应用程序对其进行清理。我将使用Python作为编程语言。标记的图像获取数据的最佳网站有两种主要方法可以获取数据...

2024-05-15 20:17:01 591

原创 完整的文本检测与识别 | 附源码

点击下方卡片,关注“小白玩转Python”公众号另外,你还记得每家店铺都有独特的名字书写方式吗?像Gucci、Sears、Pantaloons和Lifestyle这样的知名品牌在其商标中使用了曲线或圆形字体。虽然这一切吸引了顾客,但对于执行文本检测和识别的深度学习(DL)模型来说,它确实提出了挑战。当你读取横幅上的文字时,你会怎么做?你的眼睛首先会检测到文本的存在,找出每个字符的位置,然后识别这些...

2024-05-09 20:28:33 527

原创 一文读懂三维点云分割

点击下方卡片,关注“小白玩转Python”公众号什么是点云分割?点云是世界的一种非结构化三维数据表示,通常由激光雷达传感器、立体相机或深度传感器采集。它由一系列单个点组成,每个点由 x、y 和 z 坐标定义。自动驾驶模型的点云分割(来源:https://github.com/PJLab-ADG/PCSeg)点云分割将这些点聚类成表示环境中的表面、物体或结构的不同语义部分。其目标是根据在三维场景中...

2024-05-07 20:19:47 774

原创 基于 PyTorch 的人脸关键点检测

点击下方卡片,关注“小白玩转Python”公众号计算机真的能理解人脸吗?你是否想过Instagram是如何给你的脸上应用惊人的滤镜的?该软件检测你脸上的关键点并在其上投影一个遮罩。本教程将文章你如何使用PyTorch构建一个类似的软件。数据集在本教程中,我们将使用官方的DLib数据集,其中包含6666张尺寸不同的图像。此外,labels_ibug_300W_train.xml(随数据集提供)包含每...

2024-05-05 20:09:48 760

原创 使用回调函数训练YOLO模型

点击下方卡片,关注“小白玩转Python”公众号大多数人可能熟悉如何训练计算机视觉模型,比如流行的YOLO模型,甚至知道如何使用这些模型进行预测。但你知道我们可以通过回调函数为这些模型增加一些灵活性,以便在模型训练和模型推断中使用吗?大多数最先进的(SOTA)YOLO模型,如YOLOv8和YOLO-NAS,都实现了回调函数,我们可以调整这些函数以有效地利用我们的计算机视觉模型的训练和推断。考虑以下...

2024-05-04 20:01:06 593 1

原创 视觉自回归建模:通过下一尺度预测实现可扩展图像生成 |论文Review

点击下方卡片,关注“小白玩转Python”公众号论文链接:https://arxiv.org/abs/2404.02905代码链接:https://github.com/FoundationVision/VAR项目链接:https://var.vision/视觉自回归建模是一种新的图像自回归学习方法,通过关注从粗到细的尺度预测,摆脱了传统的逐像素扫描方法来预测下一个标记。这种方法使得自回归Tran...

2024-04-30 20:29:28 711

原创 小目标检测实战

点击下方卡片,关注“小白玩转Python”公众号利用切片辅助的超级推断目标检测是计算机视觉中的基本任务之一。在高层次上,它涉及预测图像中物体的位置和类别。像You-Only-Look-Once(YOLO)系列中的最先进(SOTA)深度学习模型已经达到了令人瞩目的准确度。然而,目标检测中一个众所周知的挑战是小物体。在本文中,您将学习如何使用切片辅助的超级推断(SAHI)来检测数据集中的小物体。我们将...

2024-04-28 20:39:42 840 1

原创 图像分割 — 初学者指南

点击下方卡片,关注“小白玩转Python”公众号图像分割是一种计算机视觉技术,它为图像中的每个像素分配一个标签,使得具有相同标签的像素具有某些特征。例如,在街景中,所有属于汽车的像素可能被标记为一种颜色,而属于道路的像素可能被标记为另一种颜色。但是,要理解图像分割以及它为什么有用,让我们回到基础知识……分类器可爱的小狗但是如果我们想要知道狗到底在哪里呢?一种方法是在狗周围画一个边界框,这称为目标检...

2024-04-25 20:00:46 623

原创 ViTDet — 图像基础模型的首选架构

点击下方卡片,关注“小白玩转Python”公众号截至2024年1月,ViTDet是所有视觉任务的首选架构。它被用于“segment-anything”。在ViTAE-Transformer中,我们在语义分割、目标检测、人体姿势、抠图、遥感等多个任务上取得了最先进的结果。理解这个骨干架构将有助于我们根据任务选择最佳参数。ViTDet的设计是为了强调使用变换器进行目标检测的专门架构的必要性。从某种意义...

2024-04-24 20:41:06 969

原创 简化目标检测:使用 Grounding DINO 对自定义数据集进行标注

点击下方卡片,关注“小白玩转Python”公众号对于像 YOLO 这样的模型,使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据,并围绕其定义标注,那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO!这种方法的突破之处在于,它将基于 Transformer 的检测器 DINO 与基础预训练相结合,可以从有限的人类输入中检测到任意对象。这篇简易...

2024-04-22 20:09:29 1414

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除