论文阅读-多任务(2021)-YOLOP:用于自动驾驶目标检测与语义分割的实时多任务模型

本文链接：https://blog.csdn.net/kevin_zhao_zl/article/details/124067014

YOLOP

论文：YOLOP: You Only Look Once for Panoptic Driving Perception

地址：https://paperswithcode.com/paper/yolop-you-only-look-once-for-panoptic-driving

论文阅读

YOLOP同时处理三项视觉感知任务+实时速度运行(Jetson TX2-23FPS)+保持较高精度

关于方法详情，如下图所示，全景驾驶场景感知网络YOLOP包括一个共享的编码器和三个特定的解码器处理不同任务，解码器之间没有复杂的共享机制，保证网络的端到端高效训练。
在这里插入图片描述

对于编码器，包含一个主干和一个neck，其中主干网络用于提取输入图像的特征，通常是选用图像分类网络，但是论文受YOLOv4的启发选用了CSPDarknet来作为主干，该主干有效解决了优化过程的梯度冗余问题，支持特征的高效传播和服用，满足模型对于实时的要求。

对于Neck，起作用在于融合主干网络生成的特征，YOLOP的neck由空间金字塔池化模块SPP和特征金字塔网络FPN组成。SPP生成并融合不同尺度的特征，FPN则融合不同语义层级的特征，使得生成的特征包含多尺度和多个语义层级的信息。

对于解码器，有三个，分别是交通目标检测头、可通行区域分割头和车道线分割头，后两者使用结构相同的分割头。

对于检测头，和YOLOv4相同，采用基于anchor的多尺度检测策略。首先使用通路聚合网络PAN（自底而上的特征金字塔网络）。FPN自顶而下传递语义特征，PAN自底而上传递位置特征，论文将二者结合以便产生更好的特征融合效果，之后直接在PAN种使用融合有多尺度信息的特征图进行检测。然后每个多尺度特征图的grid都会标记三个不同比例的先验框，然后检测头对位置偏移量、框尺寸以及类别标签进行预测。

对于分割头，论文奖FPN的输出（ $W / 8, H / 8, 256$ ）直接灌给分割头，经过三次三次上采样后输出预测结果 $(W, H, 2)$ ，因为SPP模块已经在共享的neck种一个用，这里不需要额外的SPP模块。