基于yolov5的目标检测和单目测距

废话在前头

  因为我的毕业设计就是搞目标检测这一块的,前段时间好不容易实现了yolov5的目标检测,后来还需要实现目标测距,于是在B站和博客里不断摸索,效果很不理想,知识点零散,幸运的是最终琢磨懂了代码和原理。全文通俗易懂。文章被限制,需要文章原文截图的点这里百度网盘(https://pan.baidu.com/s/1VCQLzYsTqd8UTKh_wqStqg?pwd=e7ja)拿!!!源码放在码云上,链接(https://gitee.com/lan-canbang/yolov5-main)。

正文开始

1、最终目的

  实现目标检测跟踪和目标测距 !

2、实现过程

2.1 实现的前提

  前提是你要会用yolov5实现目标检测,我是跟着一位博主学做出来的——目标检测—教你利用yolov5训练自己的目标检测模型 。重点是在B站里也有他做的 保姆级视频本文着重讲解单目测距。 实现了yolov5检测之后直接去我的gitee上下载我的测距项目: yolov5-main。下载并解压项目到PyCharm中,配置上运行yolov5的环境,然后跑一遍detect.py,看看我的案例效果,成功运行后再跟着教程慢慢搞。请添加图片描述

2.2 知识点简要梳理

  因为条件的限制,我没有选择双目测距来研究,其实单目和双目各有优缺点。它们的原理网上搜也是一大把,本文直接跳过原理讲解,我们来讲公式:

D = (F*W)/P
其中D是目标到摄像机的距离(最终要推测的距离), F是摄像机焦距(根据下面教程来调试自己的镜头焦距), W是目标的宽度或者高度(看情况来定,行人检测一般以人的身高为基准), P是指目标在图像中所占据的x方向像素(宽)或者y方向像素(高)(程序来计算)。
2.3 单目测距代码

  先来看看核心代码

foc = 1810.0        # 镜头焦距
real_hight_person = 64.96   # 行人高度,注意单位是英寸

# 自定义函数,单目测距
def detect_distance_person(h):
    dis_inch = (real_hight_person * foc) / (h - 2)
    dis_cm = dis_inch * 2.54
    dis_cm = int(dis_cm)
    dis_m = dis_cm/100
    return dis_m

简单理解一下代码,定好焦距(通过下一步调试可得)和行人高度(这里定一般人的身高,我定165cm,可以调,单位为英寸),然后在调用这个测距函数的时候,把行人所占据的像素高度h(其实就是利用到方框的像素高度)传进来,这个函数首先会根据公式计算出单位为英尺的距离,然后转换,最终得到单位为米的距离。

2.4 调试焦距

网上有说相机标定这个操作,我没有深入研究,貌似可以矫正图片,减小误差。我是直接跳过这个操作,影响不大。
下面讲一下怎么调试焦距,我用的是手机摄像头。

  1. 先是准备一张A4纸,横放在地板上或者别的东西上面,要纯色为背景;
  2. 用卷尺量出60cm的高度,或者用棍子画出60cm的高度,将手机打开录像,横拍,这个时候就不要放大镜头了,垂直方正的将A4纸录十几秒的视频,拍到的A4纸尽量不能歪;请添加图片描述
  3. 将视频放到项目的test目录里,在detect_A4.py的第13行代码换上这个视频。运行detect_A4.py,首先看一下有没有绿色的矩形出现并包裹住A4纸,如果没有或者有但是明显包裹不紧的话就调节25行代码的阈值,反复尝试,直到矩形出现并包裹紧A4纸。这个时候可以看到图像左上角有数值,这个就是A4纸到镜头的推测距离,我们需要通过调节foc焦距参数,让左上角这个数值接近60cm,最终的foc焦距就是你这个视频的焦距了,往后检测视频就用这个焦距,而且检测的视频都是用这个焦距拍出来的。
2.5 拿到焦距就可以做目标测距了
2.5.1 讲一下总体思路

这个时候公式 D = (F*W)/P 的三个参数已经知道了F和W两个,这个P在下面2.的(4)里可以被计算出来。

  1. 我在utils目录下定义了一个distance.py, 它的功能就是测距,我在里边定义了两个测距模型,一个是测人的,一个是测车的,这个时候先把之前调试好的焦距写在foc参数里,行人和车的高度只是大概数值,单位为英寸,自己可以改
  2. 然后来到根目录下的detect.py,这个文件我在基础上做了修改,讲一下改了哪些。
    (1)第60行定义了一个函数,以1200为宽的比例更改显示图像的大小,因为原本的这个yolov5项目是按原图像显示的,按我的焦距拍出来的视频会撑爆整个屏幕,所以要缩小显示,这个函数会在150行显示的时候被调用;
# 改变显示图片大小(自定义函数)
    def cv_show(p, im0):
        height, width = im0.shape[:2]
        a = 1200 / width  # 宽为1200,计算比例
        size = (1200, int(height * a))

        img_resize = cv2.resize(im0, size, interpolation=cv2.INTER_AREA)
        cv2.imshow(p, img_resize)
        cv2.waitKey(1)  # 1 millisecond

(2)116行做一个判断,置信度低的就不要显示了,有时候地上一个图案都能被识别成人,用官方权重来检测,检测到的东西几乎都会被框上,这样会很杂,我们可以根据需求选择我们想框的东西,像我一样在118行和131行各做了一个判断,分别是判断是不是人和车,是的话就框出来并做相应处理,128行调用的plot_one_box()就是画框的函数;

if conf2 > 0.4:   # 置信度小于0.4时不显示
	# person,显示person标签的框,并单独做person的测距
	if names[int(cls)] == 'person':
plot_one_box(xyxy, im0, label=label, color=colors[int(cls)], line_thickness=3,
                                             name=names[int(cls)])     # 画框函数

(3)这个函数在utils里的polts.py里,我们来到polts.py里的59行,我给这个函数添加了一个参数name,在画框的时候函数会根据name是人还是车进行相应的测距函数调用(68行和70行,参数h是目标的高度,63~65行通过方框坐标计算得出),所调用的测距函数也就是前面我定义好的distance.py里边的。然后71行就是在原本的方框标签上追加我们测距得到的距离数据;

def plot_one_box(x, img, color=None, label=None, line_thickness=3, name=None):
c1, c2 = (int(x[0]), int(x[1])), (int(x[2]), int(x[3]))   # 传过来的x包含有框的两个对角坐标
# w = int(x[2]) - int(x[0])   # 框的宽
h = int(x[3]) - int(x[1])     # 框的高
dis_m = 1.00
    if name == 'person':    # 根据标签名称调用不同函数计算距离
        dis_m = detect_distance_person(h)
    elif name == 'car':
        dis_m = detect_distance_car(h)
    label += f'  {dis_m}m'   # 在标签后追加距离

(4)这点不是很重要,detect.py189行,是否保存检测结果到runs/detect目录下,我这里关闭了,省储存,这点根据需求来改,需要保存就把它改成store_true,然后在runs/detect目录下最后一个exp里找,因为每运行一次detect.py都会生成一个exp文件,最后一次运行结果自然保存在最后一个exp里;

# store_true为保存视频或者图片,路径为runs/detect
parser.add_argument('--nosave', action='store_false', help='do not save images/videos')   
  1. 总结就是,基于yolov5的检测,调用我们定义的测距函数,拿到检测距离之后,把距离追加到方框的标签后面。
2.5.1 实测自己的视频
  1. 自己用拍摄A4纸的方法,到路边横屏拍摄视频,相机到腰的位置,拍点人或者车,注意不能改变焦距来拍,用拍摄A4纸的状态来拍。要问为什么不能竖屏拍,我只能说,我竖屏拍了视频传到项目里运行,显示的图像会上下颠倒,不懂是什么原因;
  2. 拍好视频后,把视频传电脑里,复制到项目data/videos目录下,重命名一下,其实放哪里都无所谓,等会路径写对就好。
  3. 来到detect.py的181行,更改数据源,改成刚刚那个视频的路径。
  4. 见证奇迹的时刻到了,运行detect.py,看看效果。

3、后语

  小学弟我才学疏浅,非计算机科班出身,对编程感兴趣,自学Java出身,因为毕业设计意外选到人工智能的课题,所以临时自学Python,然后慢慢接触人工智能。
  本文章虽然通俗易懂,但是缺乏专业术语。
  代码中能看到的中文注释我建议简单理解一遍。
  若有不足,望大佬指教!

  • 66
    点赞
  • 470
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 122
    评论
这个任务需要涉及到YOLOv5目标检测单目测距两个部分,下面给出一个大致的实现步骤: 1. 安装YOLOv5并下载预训练权重。可以参考官方文档进行安装和权重下载。 2. 读取图像或视频,并使用YOLOv5进行目标检测。这里可以使用官方提供的detect.py脚本,也可以使用Python代码调用YOLOv5模型进行目标检测。 3. 对检测到的目标进行单目测距。可以使用OpenCV中的相机标定方法获取相机内参和外参等参数,然后通过目标在图像中的位置和相机参数,计算目标到相机的距离。具体实现可以参考OpenCV官方文档。 4. 将检测到的目标和距离信息绘制在图像上。可以使用OpenCV中的绘图函数进行绘制。 下面是一个大致的Python代码实现: ```python import cv2 import numpy as np import torch # 安装YOLOv5并下载预训练权重,这里使用torch.hub方式加载模型 model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True) # 读取图像或视频 cap = cv2.VideoCapture('video.mp4') # 相机参数设置(可以通过相机标定获取) fx = 1000 fy = 1000 cx = 960 cy = 540 while True: ret, frame = cap.read() if not ret: break # 使用YOLOv5进行目标检测 results = model(frame) # 获取检测到的目标信息 boxes = results.xyxy[0].numpy() confs = results.xyxy[0][:, 4].numpy() classes = results.xyxy[0][:, 5].numpy().astype(np.int) # 对每个目标进行单目测距 for i in range(len(boxes)): x1, y1, x2, y2 = boxes[i] conf = confs[i] cls = classes[i] # 计算目标到相机的距离 w = x2 - x1 h = y2 - y1 z = (fx * w) / (2 * (x2 - cx)) distance = z / 1000 # 将单位转换为米 # 在图像上绘制目标和距离信息 cv2.rectangle(frame, (int(x1), int(y1)), (int(x2), int(y2)), (0, 255, 0), 2) cv2.putText(frame, f'{cls} {distance:.2f}m', (int(x1), int(y1 - 10)), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 2, cv2.LINE_AA) cv2.imshow('frame', frame) if cv2.waitKey(1) == ord('q'): break cap.release() cv2.destroyAllWindows() ``` 注意:这里只是一个简单的示例代码,实际运行可能还需要进行一些调整和优化。另外,由于YOLOv5模型是通过PyTorch实现的,因此在安装和使用时需要注意PyTorch版本和环境的配置。
评论 122
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lange小蓝子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值