YOLOP: You Only Look Once for Panoptic Driving Perception

论文:https://arxiv.org/abs/2108.11250

代码:https://github.com/hustvl/YOLOP

    提出了一种全景驾驶感知网络(YOLOP),用于同时进行交通目标检测、可驾驶区域分割和车道线检测。它由一个用于特征提取的编码器和三个处理特定任务的解码器组成。由于全景驾驶感知系统是自动驾驶的重要组成部分,对于这样的全景驾驶感知系统,精确性和实时性是两个最关键的要求,故实现一个高精度、实时的感知系统可以帮助车辆在行驶过程中做出合理的决策。

    全景驾驶感知单点网络(称为YOLOP)包含一个共享编码器和三个后续解码器,用于解决特定任务。不同解码器之间没有复杂和冗余的共享块,这减少了计算消耗,并使我们的网络能够轻松地进行端到端训练。如图1所示。接下来主要介绍了本文的编码器和解码器。

1  YOLOP的结构

    其中,网络共享一个编码器,由backboneneck network组成。Backbone network主要用于提取输入图像的特征,作者选择CSPDarknet作为骨干,它解决了优化过程中的梯度重复问题,同时支持特征传播和特征重用,减少了参数和计算量。Neck 用于融合有Backbone产生的特征,主要有SPPFPN两个模块组成。SPP用来生成并融合不同尺度的特征,FPN融合不同语义层次的特征,使生成的特征包含多个尺度和多个语义层次信息。

    网络中的三个heads是三个任务的特定解码器。其中Dect Head采用了基于锚的多尺度检测方案—PAN,一个自下而上传递定位特征。根据图1可知,多尺度特征图的每个网络被分配三个具有不同纵横比的先验锚点,同时预测位置的偏移量和高度、宽度的缩放以及每个类别的对应概率和预测的置信度。Driviable Area Segment Head Lane Line Segment Head采用相同的网络结构。首先将FPN的底层送到分割分支,大小为(W/8,H/8,256),然后经过三次上采样过程后,将输出的特征图恢复为(W,H2)的大小,表示输入图像中每个像素对于可行驶区域/车道线和背景的概率。

    并且训练模型,是用的端到端的训练,三个任务可以联合起来学习,不会影响彼此的性能。

    该模型在具有挑战性的BDD 100K数据集上表现非常出色,在准确性和速度方面,在所有三项任务上都达到了最先进的水平。同时是第一个可以在嵌入式设备Jetson TX223 FPS)上同时实时处理这三个视觉感知任务并保持出色准确性的工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值