实现 YOLO 目标计数 | 含代码示例

点击下方卡片,关注“小白玩转Python”公众号

在YOLO算法的无数应用中,我们想聚焦于一个真实的场景:道路车辆计数。这个用例对于智能城市的交通规划和决策具有重要意义。在这篇文章中,我们将带您一步步实现YOLO目标检测和计数,使用车辆跟踪作为我们的实际示例。

bad76c53aa2134b8eef49fc15a15e4b8.jpeg

什么是目标计数?

目标计数是计算机视觉中的一个关键应用,旨在识别和计数图像或视频中的特定对象,如人、动物或车辆。该技术在计算机视觉中具有广泛的应用前景,例如:

  • 交通监控:目标计数可用于测量车流量,从而做出更好的交通管理决策。

  • 零售业:通过计数商店内的客户流量,企业可以了解客户购物行为,提升销售效率。

  • 安全监控:目标计数可用于监控公共场所的人流,增强安全性和安保措施。

b4c39edc7ad2f8f193ce03cf7bca28dd.jpeg

实现目标计数的四个步骤

目标计数过程通常包括四个主要步骤:

  1. 图像预处理:该步骤通过去噪、过滤和增强等技术处理输入图像或视频帧,以提高计数准确性。

  2. 目标检测:此步骤旨在识别预处理图像或视频中的特定对象。流行的目标检测算法包括Faster R-CNN、YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)。

  3. 目标跟踪:在该步骤中,在连续图像帧序列中跟踪相同的对象。常见的目标跟踪算法包括KCF(Kernelized Correlation Filter)、TLD(Tracking, Learning, and Detection)和MOSSE(Minimum Output Sum of Squared Error)。目标跟踪确保在动态视频的连续帧中不会多次计数相同的对象。

  4. 目标计数:最后一步涉及计算检测到的和跟踪到的对象数量。

为什么YOLOv8适合目标计数?

YOLO是计算机视觉中一个强大的目标检测工具。虽然YOLO主要用于目标检测,但它也可以用于目标计数,如在实时监控视频流中计数出现的人和车。与传统的目标检测算法如R-CNN系列相比,YOLOv8提供了多项优势,使其非常适合用于目标计数应用。

ab734816dec520a67cc45c0ad746d9a8.png

实时性能

YOLOv8的主要优势之一是其实时目标检测能力。由于其“仅看一次”的特性,YOLO模型无需多次扫描图像,而是将图像一次性划分为多个网格,对每个网格进行分类和回归,从而实现目标检测。此实时性能使YOLOv8非常适合需要即时反馈的应用,如自动驾驶、视频监控和机器人视觉。

高准确性

YOLOv8的另一个优势是其高准确性。传统的目标检测算法通常依赖于多阶段处理,这可能导致每个阶段的累积误差。YOLOv8避免了这一问题,通过在一步内完成所有任务。此外,YOLOv8考虑了对象的上下文,即使在涉及遮挡或重叠的复杂场景中也能保持高准确性。

使用YOLOv8实现目标计数

要使用YOLOv8进行目标计数,我们首先需要检测视频的每一帧中的对象并获得其类别和位置。然而,为了避免在连续帧中多次计数相同的对象,我们还需要采用目标跟踪算法。

💡 目标跟踪算法旨在跨一系列视频帧跟踪一个或多个对象。有多种类型的目标跟踪算法,包括基于光流的方法、基于特征的方法和基于模型的方法。基于光流的方法特别常见,因为它们通过比较两个连续帧来估计每个像素的运动方向和距离,从而实现有效的目标跟踪。

但是,这种方法有一个挑战:如何处理对象的进入和退出。例如,一个人可能从屏幕左侧进入,然后从右侧退出。在这种情况下,我们应将此人计为1,而不是2。为了解决这个问题,我们可以建立规则,例如只有当对象完全进入屏幕时才开始跟踪和计数,当对象完全离开屏幕时停止跟踪和计数。

实践操作:YOLO目标计数

在接下来的部分中,我们将演示如何使用Ultralytics提供的YOLOv8模型,在一分钟的道路监控视频(street.mp4)中计数出现的人和车辆。

输出将是一个带有注释的视频(street_object_counting.mp4),显示每一帧中出现和消失的人和车辆。Ultralytics不仅提供YOLO模型,还在其PIP包中提供了目标计数等高级功能,使开发人员更容易利用YOLO模型。

您可以从以下链接下载完整的Google Colab Notebook代码:yolov8_object_counting.ipynb。

515efec6b133f35a06fe1d6a01ea24ad.jpeg

首先,通过下载测试视频并安装所需的PIP依赖项来设置运行环境。

23b919b3f027f4aaab49fbf6e6626f5b.jpeg

$ curl -o /content/street.mp4 https://basicai-asset.s3.amazonaws.com/www/blogs/yolov8-object-counting/street.mp4
$ pip install ultralytics

然后,输入以下代码片段。

import cv2
from ultralytics import YOLO
from ultralytics.solutions import object_counter as oc

导入必要的Python对象,包括用于读写视频文件的cv2,YOLO用于检测和跟踪每个视频帧中的人和车辆,以及object_counter用于在每个帧中注释出现的人和车辆以生成视频结果。

input_video_path = "street.mp4"
output_video_path = "street_object_counting.mp4"


video_capture = cv2.VideoCapture(input_video_path)
assert video_capture.isOpened(), "Illegal or non-existing video file"


video_width, video_height, video_fps = (
    int(video_capture.get(p))
    for p in (cv2.CAP_PROP_FRAME_WIDTH, cv2.CAP_PROP_FRAME_HEIGHT, cv2.CAP_PROP_FPS)
)


video_writer = cv2.VideoWriter(
    output_video_path, cv2.VideoWriter_fourcc(*"mp4v"), video_fps, (video_width, video_height)
)

使用VideoCapture逐帧读取视频,并使用VideoWriter生成与源视频相同分辨率和帧率的结果视频。

yolo = YOLO("yolov8n.pt")


object_counter = oc.ObjectCounter()
object_counter.set_args(
    view_img=True,
    reg_pts=[(0, 540), (1280, 540)],
    classes_names=yolo.names,
    draw_tracks=True
)


while video_capture.isOpened():
    success, frame = video_capture.read()
    if not success:
        break


    tracks = yolo.track(frame, persist=True, show=False, classes=[0, 2])
    frame = object_counter.start_counting(frame, tracks)
    video_writer.write(frame)

创建一个YOLO模型对象和一个ObjectCounter对象。然后,使用VideoCapture逐帧读取源视频中的所有帧。利用YOLO检测和跟踪每帧中出现的人和车辆,并使用ObjectCounter在每帧中注释出现的人和车辆。最后,使用VideoWriter将注释的帧写入输出视频流。

重要参数:

  • set_args.reg_pts: 计数区域或线。只有出现在指定区域内或穿过指定线的对象才会被计数。这里,我们指定了一条位于帧底部的水平线。

  • track.persist: 由于需要跨帧对象跟踪(避免在不同帧中多次计数同一个人或车辆),需要保留所有先前帧的检测结果。

  • track.classes: 指定要检测和跟踪的对象类型。0代表人,1代表车辆。

video_capture.release()
video_writer.release()
cv2.destroyAllWindows()

最后,释放相关资源。查看示例视频:https://video.wixstatic.com/video/4b3c31_bdf261c811bc47d78cf59b7a37209451/720p/mp4/file.mp4

拓展问答

Q1: 我很好奇,在现实场景中实现这个过程时面临的最大难题是什么?A1: 最常见的问题之一是处理遮挡(对象被其他对象部分或完全遮挡),这会使模型难以准确检测和计数它们。另一个挑战是确保模型不会在不同帧中多次计数同一个对象。这需要一些巧妙的预处理和对YOLO模型的精细调整。拥有一个稳健的目标跟踪算法也至关重要!

Q2: 我正在做一个涉及自然栖息地中野生动物计数的项目。你认为这种基于YOLO的方法适合吗?A2: 绝对可以!YOLOv8的一个很棒的特点是它非常多才多艺。有了合适的训练数据,您可以教它检测和计数几乎任何类型的对象。无论是野生动物、生产线上产品,还是显微镜下的细胞,YOLO都能胜任。关键是要有一个与您的用例特定相关的良好标注数据集。

Q3: 我最近听说了很多关于Google Colab的事情。你能解释一下它是什么以及为什么如此受欢迎吗?A3: Google Colab是一个革命性的基于云的Jupyter笔记本环境,允许您运行Python代码并使用Google强大的计算资源(包括GPU和TPU)来训练深度学习模型,且完全免费!它非常用户友好,预装了Python库,无缝集成Google Drive,并支持Markdown和LaTeX。难怪Colab在机器学习爱好者和数据科学家中如此受欢迎。

Q4: 我一直在低光条件下尝试目标计数,但准确性无法达到要求。有何建议可以改进?A4: 低光场景确实是目标检测和计数的一个难题。有几个技巧可以尝试。考虑在预处理步骤中应用一些图像增强技术。直方图均衡化或伽马校正可以显著提高暗图像中的细节。另一个帮助方法是使用一个专门在包含低光图像的数据集上训练的YOLO模型,这样它会更好地应对这些挑战性条件。

·  END  ·

HAPPY LIFE

33e66ed1a21b7a6eec532f8e61debb7c.png

本文仅供学习交流使用,如有侵权请联系作者删除

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您可以使用 Darknet 框架中的 YOLOv3 模型进行车辆视频目标检测计数。以下是一个使用 Python 和 OpenCV 库实现示例代码: ```python import cv2 import numpy as np # 加载 YOLOv3 模型 net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg") # 获取输出层信息(YOLOv3 模型有三个输出层) layer_names = net.getLayerNames() output_layers = [layer_names[i[0] - 1] for i in net.getUnconnectedOutLayers()] # 加载 COCO 数据集标签 classes = [] with open("coco.names", "r") as f: classes = [line.strip() for line in f.readlines()] # 定义颜色列表 colors = np.random.uniform(0, 255, size=(len(classes), 3)) # 打开视频文件 cap = cv2.VideoCapture("video.mp4") # 初始化帧计数器和车辆计数器 frame_count = 0 car_count = 0 # 循环处理视频帧 while True: # 读取视频帧 ret, frame = cap.read() if not ret: break # 缩放图像以便于处理 height, width, channels = frame.shape scale = 0.00392 blob = cv2.dnn.blobFromImage(frame, scale, (416, 416), (0, 0, 0), True, crop=False) # 将图像传入 YOLOv3 模型进行检测 net.setInput(blob) outs = net.forward(output_layers) # 解析检测结果 class_ids = [] confidences = [] boxes = [] for out in outs: for detection in out: scores = detection[5:] class_id = np.argmax(scores) confidence = scores[class_id] if confidence > 0.5: center_x = int(detection[0] * width) center_y = int(detection[1] * height) w = int(detection[2] * width) h = int(detection[3] * height) x = int(center_x - w / 2) y = int(center_y - h / 2) boxes.append([x, y, w, h]) confidences.append(float(confidence)) class_ids.append(class_id) # 非极大值抑制(NMS)处理 indexes = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4) # 绘制检测结果 for i in range(len(boxes)): if i in indexes: x, y, w, h = boxes[i] label = str(classes[class_ids[i]]) color = colors[class_ids[i]] cv2.rectangle(frame, (x, y), (x + w, y + h), color, 2) cv2.putText(frame, label, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, color, 2) # 如果检测到车辆,增加车辆计数器 if label == "car": car_count += 1 # 显示当前帧的车辆计数结果 cv2.putText(frame, "Cars: {}".format(car_count), (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (0, 0, 255), 2) # 显示当前帧的检测结果 cv2.imshow("Frame", frame) key = cv2.waitKey(1) if key == 27: break # 增加帧计数器 frame_count += 1 # 释放资源 cap.release() cv2.destroyAllWindows() ``` 在上面的示例代码中,我们首先加载了 YOLOv3 模型和 COCO 数据集标签,并打开了一个视频文件。然后,我们循环处理视频帧,对每一帧图像进行 YOLOv3 目标检测,并根据检测结果绘制检测框和标签。如果检测到汽车,我们就增加车辆计数器。最后,在视频帧上显示车辆计数结果和检测结果,并等待按下 ESC 键退出程序。 需要注意的是,上面的示例代码只是一个简单的演示,实际应用中可能需要对检测框进行进一步处理,以消除重复计数和漏计数的情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值