机器人感知避障-基于YOLOv8-seg和ROS2(Python实现)

简介

感知避障通常是机器人研发中的一项重要任务。在复合机器人(底盘AGV+躯干+机械臂)或人形机器人在实际场景的行进过程中通常采用多传感器进行三维空间中机身的避障,针对有色液体、宠物粪便、阶梯、悬崖等,采用感知避障。

算法思路

1、相机取流,一般选用RGBD相机获取color和depth
2、在2D图像上进行分割
3、将分割得到的mask映射到深度图
4、根据深度图获取点云
5、将点云发出

依赖

PyTorch、Open3D、ROS2、Realsense ROS驱动

代码

import os
import numpy as np
import cv2
import open3d as o3d
from datetime import datetime
import torch
from ultralytics import  YOLO

import rclpy
from sensor_msgs.msg import PointCloud2, PointField, Image, CameraInfo

from cv_bridge import CvBridge
from std_msgs.msg import Header
from rclpy.node import Node

def depth_to_pointcloud(depth_image, fx, fy, cx, cy):
    # Create Open3D Image from depth map
    o3d_depth = o3d.geometry.Image(depth_image)

    # Get intrinsic parameters
    # fx, fy, cx, cy = intrinsic.fx, intrinsic.fy, intrinsic.ppx, intrinsic.ppy

    # Create Open3D PinholeCameraIntrinsic object
    o3d_intrinsic = o3d.camera.PinholeCameraIntrinsic(width=depth_image.shape[1], height=depth_image.shape[0], fx=fx, fy=fy, cx=cx, cy=cy)

    # Create Open3D PointCloud object from depth image and intrinsic parameters
    pcd = o3d.geometry.PointCloud.create_from_depth_image(o3d_depth, o3d_intrinsic)

    return pcd

def achieve_targetpointcloud(mask, depth, fx, fy, cx, cy):
    mask_resized = cv2.resize(mask, (depth.shape[1], depth.shape[
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stageOne stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中PrecisionRecall的概念。 首先我们设置置信度阈值(Confidence Threshold)IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 PrecisionRecall的概念如下图所示: Precision表示TP与预测边界框数量的比值
### 使用YOLO算法实现无人机平台的目标检测与识别 #### 准备工作环境 为了使YOLO能够在Bebop2无人机上运行,需先配置好开发环境。这涉及到安装ROS(Robot Operating System),并设置特定的工作空间来管理软件包。 ```bash source ~/bebop_ws/devel/setup.bash ``` 此命令用于激活之前建立好的catkin工作区,确保可以访问到所有必要的工具库文件[^2]。 #### 启动YOLO检测节点 一旦准备工作完成,在新的终端窗口执行如下命令以启动YOLOv3模型来进行图像处理: ```bash roslaunch darknet_ros yolov3.launch ``` 这条指令会加载预训练过的YOLO权重,并初始化订阅来自摄像头的数据流,从而实现实时目标检测功能。 #### 数据传输与处理 通过上述操作后,YOLO将会自动接收由Bebop2相机拍摄的画面帧作为输入源。该过程依赖于ROS的消息传递机制,使得不同组件之间能够高效协作。当接收到新一帧画面时,YOLO网络会对其中的对象进行分类预测,最终输出带有边界框标注的结果图给用户界面显示或进一步分析使用。 #### 性能优化建议 考虑到计算资源有限的情况下,对于嵌入式设备如小型无人机而言尤为重要的是考虑性能调优措施。一方面可以选择更轻量级版本的YOLO变体比如Tiny YOLO;另一方面也可以调整推理频率以及分辨率参数等手段达到平衡精度同效率之间的关系[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值