yolo单目测距深度学习目标检测算法通过训练大量的带有深度信息的数据来训练估计模型构建基于深度学习Yolov5的单目测距检测识别

计算机C9硕士_算法工程师

已于 2025-05-08 07:53:33 修改

阅读量192

点赞数 3

文章标签： YOLO 深度学习目标检测

于 2025-05-08 07:53:22 首次发布

本文链接：https://blog.csdn.net/2401_88440984/article/details/147778544

版权

深度学习目标检测算法通过训练大量的带有深度信息的数据来训练估计模型构建基于深度学习Yolov5的单目测距检测识别

文章目录

yolo单目测距

构建一个基于YOLOv5的单目测距系统是一个涉及目标检测、深度估计和距离计算等多个步骤的过程。以下是一个详细的指南，包括环境搭建、模型训练、距离计算以及使用Python实现整个系统的代码示例。

1. 环境搭建

首先，确保你的开发环境已经安装了必要的库和工具。这里以Anaconda和PyTorch为例。

安装依赖

# 创建并激活虚拟环境
conda create -n yolov5 python=3.8
conda activate yolov5

# 安装PyTorch和YOLOv5
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
git clone https://github.com/ultralytics/yolov5.git
cd yolov5
pip install -r requirements.txt

2. 数据准备

收集和标注数据集，用于训练YOLOv5模型进行目标检测。同时，需要一些带有深度信息的数据来训练深度估计模型。

数据预处理

对数据进行预处理，包括裁剪、缩放、归一化等操作，以便于模型训练。

import cv2
import numpy as np

def preprocess_image(image):
    # 裁剪和缩放
    image = cv2.resize(image, (640, 480))
    
    # 归一化
    image = image / 255.0
    
    return image

3. 模型训练

YOLOv5模型训练

使用YOLOv5进行目标检测模型训练。

# 训练YOLOv5模型
python train.py --img 640 --batch 16 --epochs 100 --data coco128.yaml --weights yolov5s.pt

深度估计模型训练

选择一个适合深度估计的深度学习模型，如DepthNet或DORN等。这里以DepthNet为例。

import torch
import torch.nn as nn
import torch.optim as optim

class DepthNet(nn.Module):
    def __init__(self):
        super(DepthNet, self).__init__()
        
        # Encoder
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.conv3 = nn.Conv2d(128, 256, kernel_size=3, padding=1)
        
        # Decoder
        self.upconv3 = nn.ConvTranspose2d(256, 128, kernel_size=2, stride=2)
        self.conv4 = nn.Conv2d(256, 128, kernel_size=3, padding=1)
        self.upconv2 = nn.ConvTranspose2d(128, 64, kernel_size=2, stride=2)
        self.conv5 = nn.Conv2d(128, 64, kernel_size=3, padding=1)
        self.conv6 = nn.Conv2d(64, 1, kernel_size=1)

    def forward(self, x):
        # Encoder
        x1 = F.relu(self.conv1(x))
        x2 = F.max_pool2d(F.relu(self.conv2(x1)), 2)
        x3 = F.max_pool2d(F.relu(self.conv3(x2)), 2)
        
        # Decoder
        x = F.relu(self.upconv3(x3))
        x = torch.cat((x2, x), dim=1)
        x = F.relu(self.conv4(x))
        x = F.relu(self.upconv2(x))
        x = torch.cat((x1, x), dim=1)
        x = F.relu(self.conv5(x))
        x = self.conv6(x)
        
        return x

# 初始化模型和优化器
model = DepthNet()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 定义损失函数
criterion = nn.MSELoss()

# 训练循环
for epoch in range(num_epochs):
    for images, depths in dataloader:
        optimizer.zero_grad()
        
        outputs = model(images)
        loss = criterion(outputs, depths)
        
        loss.backward()
        optimizer.step()
        
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}')

4. 距离计算

在完成模型训练后，可以使用训练好的模型进行目标检测和深度估计，并计算目标的距离。

def calculate_distance(depth_map, bbox):
    x_min, y_min, x_max, y_max = bbox
    depth_values = depth_map[y_min:y_max, x_min:x_max]
    average_depth = np.mean(depth_values)
    
    # 假设相机焦距为f，图像中心点到物体的水平距离为d
    f = 500  # 相机焦距
    d = average_depth * f
    
    return d

# 使用YOLOv5进行目标检测
from yolov5.models.experimental import attempt_load
from yolov5.utils.datasets import LoadImages
from yolov5.utils.general import non_max_suppression

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = attempt_load('yolov5s.pt', map_location=device)

dataset = LoadImages('test_image.jpg')
for path, img, im0s, vid_cap in dataset:
    img = torch.from_numpy(img).to(device)
    img = img.float() / 255.0
    if img.ndimension() == 3:
        img = img.unsqueeze(0)

    pred = model(img, augment=False)[0]
    pred = non_max_suppression(pred, conf_thres=0.25, iou_thres=0.45)

    for det in pred:
        if len(det):
            for *xyxy, conf, cls in reversed(det):
                bbox = [int(x) for x in xyxy]
                
                # 使用深度估计模型计算深度图
                depth_map = depth_model(preprocess_image(im0s)).squeeze().detach().cpu().numpy()
                
                # 计算目标距离
                distance = calculate_distance(depth_map, bbox)
                print(f'Distance to object: {distance} meters')

5. 用户界面设计

使用PyQt5等库设计一个图形用户界面（GUI）。

from PyQt5.QtWidgets import QApplication, QMainWindow, QPushButton, QLabel, QVBoxLayout, QWidget, QFileDialog
from PyQt5.QtGui import QImage, QPixmap
from PyQt5.QtCore import QTimer
import sys

class DistanceMeasurementApp(QMainWindow):
    def __init__(self):
        super().__init__()

        self.setWindowTitle("Yolo v5 单目测距系统")
        self.setGeometry(100, 100, 800, 600)

        self.label = QLabel(self)
        self.label.setGeometry(10, 10, 640, 480)

        self.open_button = QPushButton('打开图片', self)
        self.open_button.move(10, 490)
        self.open_button.clicked.connect(self.open_image)

        self.measure_button = QPushButton('开始测距', self)
        self.measure_button.move(170, 490)
        self.measure_button.clicked.connect(self.measure_distance)

    def open_image(self):
        options = QFileDialog.Options()
        file_name, _ = QFileDialog.getOpenFileName(self, "QFileDialog.getOpenFileName()", "", "Images (*.png *.xpm *.jpg *.bmp);;All Files (*)", options=options)
        if file_name:
            self.image_path = file_name
            self.display_image(file_name)

    def display_image(self, file_name):
        image = QImage(file_name)
        pixmap = QPixmap.fromImage(image)
        self.label.setPixmap(pixmap)

    def measure_distance(self):
        if hasattr(self, 'image_path'):
            image = cv2.imread(self.image_path)
            results = detect_objects_and_measure_distance(image, model, depth_model)
            
            for result in results:
                label, bbox, distance = result
                x_min, y_min, x_max, y_max = bbox
                cv2.rectangle(image, (x_min, y_min), (x_max, y_max), (0, 255, 0), 2)
                cv2.putText(image, f'{label}: {distance:.2f} m', (x_min, y_min - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
            
            height, width, channel = image.shape
            bytes_per_line = 3 * width
            q_img = QImage(image.data, width, height, bytes_per_line, QImage.Format_RGB888)
            pixmap = QPixmap.fromImage(q_img)
            self.label.setPixmap(pixmap)

if __name__ == '__main__':
    app = QApplication(sys.argv)
    window = DistanceMeasurementApp()
    window.show()
    sys.exit(app.exec_())