基于mmdetection3d的单目3D目标检测模型，效果远超CenterNet3D

WanHeng WyattVan

已于 2023-11-21 17:06:49 修改

阅读量925

点赞数 9

文章标签： 3d 目标检测人工智能

于 2023-11-20 23:51:33 首次发布

本文链接：https://blog.csdn.net/BluErroR/article/details/134519935

版权

使用 mmDetection3D 进行单目3D 目标检测：基于 KITTI 数据集的实践

本文目录

引言
1. 背景介绍和文章工作
2. 环境准备
3. 数据预处理
4. 代码编写
5.结果可视化
- 5.1图像结果
- 5.2视频结果
6.总结

引言

在计算机视觉领域，3D 目标检测一直是一个备受关注的研究方向。随着深度学习的发展，越来越多的工具和框架涌现出来，为研究者和开发者提供了更多的选择。本文将介绍如何使用 mmDetection3D 这一强大的框架进行 3D 目标检测，并以 KITTI 数据集为例进行实践。
话不多说，我们先看一下实现效果，然后开始这次的学习。在这里插入图片描述

1. 背景介绍和文章工作

1.1 MMdetection3D简介

MMdetection3D是一个基于PyTorch的开源框架，专门设计用于解决3D目标检测任务。它在深度学习和计算机视觉领域取得了显著的进展，为研究者和开发者提供了一系列强大的工具来处理和解决3D目标检测的挑战。
主要特点：1.以PyTorch基础。 2.3D目标检测重点,提供了多种经典的3D目标检测模型，如smoke等，以及相应的训练和测试算法。 3.支持多种3D数据集,框架支持常见的3D数据集，包括本文使用的kitti数据集。 4.灵活的配置和扩展.

1.2 KITTI数据集概述

KITTI数据集是一个用于自动驾驶和移动机器人领域的经典数据集，由德国卡尔斯鲁厄理工学院和丰田提供。该数据集包含大量的城市驾驶场景的多模态数据，涵盖图像、激光雷达和相机等信息。
数据集组成：

图像数据：包含高分辨率的彩色图像，捕捉了城市环境中的不同交通场景。
激光雷达数据：提供了点云数据，用于描述周围环境中的物体形状和位置。
相机数据：包括相机参数和标定信息，有助于将图像和激光雷达数据进行准确的配准。

1.3 本文工作

本文实现将构建在mmdection3D-smoke之上。在smoke之前，其实也有很多尝试使用单目进行3d检测的网络模型，比如CenterNet3D等,相比起来，smoke在单目3d目标检测上展现出了更好的效果。
本文做的改进主要有：

原始版本只能从dataloader里面做inference，本文实现了直接输入单张图片，直接输入单个视频，使用摄像头三种方式；
版本有着各种各样的限制，而现在可以传入一个KITTI的video path，就可以直接匹配好kitii数据集对应的摄像头内参进行预测。
本文探索了模型在nucsenes数据上的效果，比如从nuscenes中下载的图片，采用预训练权重和nuscenes相机内参进行推理的效果

2. 环境准备

在开始之前，确保你已经安装了必要的软件和库，包括Python,PyTorch,MMdetection3D等。你可以按照官方文档提供的步骤进行安装。官方文档非常的详细，相信大家可以自行配置好。

3. 数据预处理

在进行训练之前，我们需要对KITTI数据集进行预处理，以符合MMdetection3D的要求。这包括数据的格式转换、标注文件的处理等。如果需要进行训练，则可以更具具体的步骤可以参考MMdetection3D文档中关于数据预处理的说明。而在本文中，只关注应用部分。
因此，在本文的3d目标检测任务中，我们从kitti数据集中下载得到了以下几种预处理的数据：

图片：KITTI数据集直接下载下来的都是图片，以及有对应好的内参等表述文件。
视频：作者花了一定的功夫下载下来了KITTI完整原始的几个视频数据集片段作为测试（真的很难找）
内参文件：对应于KITTI数据集使用的相机内参的pkl文件（这个文件内容很复杂，不必过分的在意内容，推理时只需要学会使用即可）

4. 代码编写

4.1预设值参数代码

def parse_args():
parser = ArgumentParser()
# 图片推理模式使用的图片路径
parser.add_argument('--img', help='image file', default="./demo/data/nuscenes/image/2.jpg")
# 内参pkl文件
parser.add_argument('--ann', help='ann file', default="./demo/data/nuscenes/calib/mono3d_nuscenes.pkl")
# 视频推理模式的视频路径
parser.add_argument('--video_img', help='video file', default="./demo/data/kitti/video/4.mp4")
# 视频推理时使用的相机内参
parser.add_argument('--video_ann', help='ann file', default="./demo/data/kitti/calib/000008.pkl")
# parser.add_argument('--video_img', help='video file', default="./demo/data/nuscenes/video/3.mp4")
# parser.add_argument('--video_ann', help='ann file', default="./demo/data/nuscenes/calib/mono3d_nuscenes.pkl")
# 预训练配置路径，不用改
parser.add_argument('--config', help='Config file', default="./configs/smoke/smoke_dla34_dlaneck_gn-all_4xb8-6x_kitti-mono3d.py")
# 预训练权重
parser.add_argument('--checkpoint', help='Checkpoint file', default="./checkpoints/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d_20210929_015553-d46d9bb0.pth")
parser.add_argument(
    '--device', default='cuda:0', help='Device used for inference')
parser.add_argument(
    '--cam-type',
    type=str,
    default='CAM_FRONT',
    help='choose camera type to inference')
# 推理模式选择
parser.add_argument("--mode", type=int, default=1, help="image, video or camara")
parser.add_argument(
    '--score-thr', type=float, default=0.30, help='bbox score threshold')
parser.add_argument(
    '--show',
    action='store_true',
    help='show online visualization results')
parser.add_argument(
    '--snapshot',
    action='store_true',
    help='whether to save online visualization results')
args = parser.parse_args()
return args

4.2 推理坐标代码

# 单张图片推理
result = inference_mono_3d_detector(model, args.img, args.ann,
                                    args.cam_type)
file_name = args.img.split('/')[-1].split('.')[0]
# 提取预测实例信息
pred_instances_3d = result.get('pred_instances_3d', None)

上面代码中：

pred_instances_3d

是我们得到的推理结果，则我们可以从这个推理结果中得到画在图上的长方体的坐标。

def calculate_rotated_corners(box_instance):
    if box_instance is not None:
        coordinates = box_instance.tensor[0].cpu().numpy()
        x1, y1, z1, x2, y2, z2, yaw = coordinates

        # Calculate half sizes in each dimension
        half_x = (x2 - x1) / 2
        half_y = (y2 - y1) / 2
        half_z = (z2 - z1) / 2

        # Calculate the rotation matrix for the yaw angle
        rotation_matrix = np.array([[np.cos(yaw), -np.sin(yaw), 0],
                                    [np.sin(yaw), np.cos(yaw), 0],
                                    [0, 0, 1]])

        # Define the eight corners of the box
        corners = [
            [half_x, half_y, half_z],
            [half_x, half_y, -half_z],
            [half_x, -half_y, half_z],
            [half_x, -half_y, -half_z],
            [-half_x, half_y, half_z],
            [-half_x, half_y, -half_z],
            [-half_x, -half_y, half_z],
            [-half_x, -half_y, -half_z]
        ]

        # Rotate the corners based on the yaw angle and return the rotated corners
        rotated_corners = []
        for corner in corners:
            rotated_corner = np.dot(rotation_matrix, corner)
            rotated_corners.append(rotated_corner + np.array([x1, y1, z1]))

        return rotated_corners

    return None

4.3 利用接口可视化

visualizer.add_datasample(
    'result',
    data_input,
    data_sample=result,
    draw_gt=False,
    show=args.show,
    wait_time=-1,
    out_file='./demo/output/{}_result.png'.format(file_name),
    pred_score_thr=args.score_thr,
    vis_task='mono_det')

可以利用mmdection3d的接口进行可视化。

当有了以上代码，我们便可以进行我们的推理了。

5.结果可视化

5.1图像结果

在这里插入图片描述

5.2视频结果

请添加图片描述

6.总结

本文介绍了如何使用 MMdetection3D 框架进行单目3D目标检测，以 KITTI 数据集为例进行实践。以下是文章的主要内容和亮点总结：

背景介绍：介绍了 MMdetection3D 框架，这是一个基于 PyTorch 的开源框架，专注于解决3D目标检测任务。同时，对
KITTI 数据集进行了概述，该数据集是自动驾驶和移动机器人领域的经典数据集。
文章工作：文章在 MMdection3D 的 smoke
模型基础上进行改进，使得推理过程更加灵活，支持单张图片、单个视频和摄像头输入。还探索了模型在 nuscenes 数据集上的效果。
环境准备：提供了环境准备的步骤，确保读者已经安装了必要的软件和库，包括 Python、PyTorch、MMdetection3D。
数据预处理：强调了在进行训练之前需要对 KITTI 数据集进行预处理，以满足 MMdetection3D
的要求。文章列举了预处理过程中涉及到的几种数据，包括图片、视频和相机内参文件。
代码编写：提供了预设值参数代码、推理坐标代码和利用接口可视化的代码片段。这些代码展示了如何使用 MMdetection3D
进行推理，并将结果可视化。
结果可视化：展示了推理结果的图像和视频可视化效果，通过长方体坐标展示了检测到的3D目标位置。

需要源代码的请大家关注收藏后然后评论区评论，或者私信我噢！

以往干货链接：
SH？Termius？一篇文章教你使用远程服务器训练！

Jetson nano开机自启动python程序