An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera 论文翻译（未完成）

最新推荐文章于 2024-09-12 19:18:03 发布

若素不若素

最新推荐文章于 2024-09-12 19:18:03 发布

阅读量91

点赞数

文章标签： 3d 计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_57273938/article/details/135076851

版权

文章介绍了一种基于单摄像头的伪三维车辆检测方法，通过拼接图像获取大范围信息，利用扩展BBox和侧投影线表示车辆形状和姿态。模型采用CSPDarknet53提取特征，并通过目标盒和声压级约束损失提升性能。实验证明其在大范围车辆检测中表现出色。

摘要由CSDN通过智能技术生成

An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera

基于单摄像头的大范围伪三维车辆检测

摘要

大范围和细粒度的车辆检测在实现智能驾驶系统的主动安全功能方面起着至关重要的作用。然而，现有的基于矩形边界盒(BBox)的车辆检测方法往往难以感知大范围物体，尤其是远距离的小物体。BBox表达式不能提供车辆的详细几何形状和姿态信息。本文提出了一种基于单摄像头图像的伪三维车辆大范围检测方法，并结合了高效的学习方法。该模型以拼接图像为输入，拼接图像由高分辨率图像的两个子窗口图像组合而成。这种图像格式最大限度地利用有限的图像分辨率，以保留有关大范围车辆对象的基本信息。为了检测伪3d物体，我们的模型采用了专门设计的检测头。这些头同时输出扩展的BBox和侧面投影线(SPL)表示，捕获车辆形状和姿势，实现高精度检测。为了进一步提高检测性能，在模型训练时设计了结合目标盒和声压级的联合约束损失，提高了模型的效率、稳定性和预测精度。在自建数据集上的实验结果表明，该模型在跨多个评价指标的大范围伪三维车辆检测中取得了良好的性能。我们的演示视频已放在https://www.youtube.com/watch?v=1gk1PmsQ5Q8

索引术语- dw图像，关节约束损失，伪三维车辆检测

3、方法

在本节中，我们首先简要地提出我们的问题定义，然后介绍我们的模型体系结构和训练过程中的一些细节

A、问题定义

根据数据集的统计分析，远程车辆(车辆)的尺寸小于预定义的，从自我车辆的角度来看，图像中的阈值集中在中心区域。通过提取中心区域作为包含远处车辆原始信息的CW图像，并通过缩放原始图像以提供附近车辆的上下文信息来获得GW图像。DW图像是通过垂直连接CW和GW图像创建的。这些DW图像为模型提供了大范围的车辆信息。
1)输出表示:我们设计的P3DVR可以将车辆的3D BBox投影到2D图像上。利用车辆的刚性特性将表示分解为几何属性，然后将几何属性组合成扩展的BBox和车辆的SPL。P3DVR可以由这两个组件唯一确定，如图2a所示。
在这里插入图片描述
扩展后的BBox可以用一组形状参数EB = (x, y, w, h, r, p)来描述。图中Oc(x, y)、w、h分别表示图像中车辆目标BBox的中心坐标、宽度和高度。除了这些属性之外，我们还根据车辆在相机视场中的姿态对BBox进行了两个额外的属性扩展，即r表示分割线左侧宽度与BBox总宽度的比值，以及基于车辆方向的姿态分类结果p，如图2b所示。
侧投影线是车辆目标三维几何结构的主要形式，可以用一组形状参数SP L = (pwc， θ)来描述。PWC是同侧前后轮接触点连线的中点，其坐标可以很容易地表示为PWC = (xl, yl)。SPL为前后轮同侧接地点的连接直线。根据图2a先前的平面几何，声压级可以由中点pwc和该线与图像坐标系x轴之间的夹角θ唯一确定。因此，P3DVR可以表示为(x, y, w, h, r, p, pwc， θ)。
给定P3DVR，可以确定图2中红色和黄色梯形框的形状，这两个梯形框可以描述车辆的一些重要的三维几何结构
根据P3DVR的构成，P3DVD任务可以分解为检测车辆的BBox、姿态分类、左侧比例、检测SPL中点及其与x轴夹角。

B、网络结构

图3简要展示了我们的P3DVD的网络架构。
对于P3DVR，我们设计了相应的伪3d检测头，包括扩展对象检测头(EODH)和侧投影线头(SPLH)。
在这里插入图片描述
主干:模型采用CSPDarknet53[28]作为主干进行特征提取。如图3a所示，主干直接从合成的DW图像中提取图像特征以提高计算效率，并从DW图像中输出多尺度特征FDW = {F sd DW |sd = 8,16,32}，其中sd表示F sd DW相对于DW图像的步幅。由于DW图像的双尺度特征，fsd DW由两个不同尺度的特征映射组成。因此，在多尺度特征融合过程中，需要先根据拼接信息对FDW进行分离，然后根据尺度信息对相邻尺度之间的特征图信息进行有效融合[29]。FDW分离得到GW多尺度特征FGW =F sg g |sg = 8so, 16so, 32so，CW多尺度特征FCW = {F sc c |sc = 8,16}，其中sg和sc分别表示F sg g和F sc c相对于原始图像的步长，因此表示GW图像相对于原始图像的比例因子