文章目录
1.创新点
提出了一种聚合全局信息的,新颖的基于 anchor
的注意力机制。
提出了一种基于 anchor
的单阶段车道检测模型,称为 LaneATT
。它的架构允许使用轻量级 backbone CNN
,同时保持高精度。
基于 anchor
的特征池化通过使用 anchor
本身来实现单级检测器,可以潜在地探索所有特征图,从而能够使用更轻量级的 backbone
和更小的感受野。
2.解决了哪些问题
一种车道检测方法,在大型复杂数据集上比现有最先进的实时方法更准确。
与大多数其他模型相比,该模型能够实现更快的训练和推理时间(达到 250 FPS,并且乘加运算 (MAC
) 比之前最先进的模型少了一个数量级)。
3.原理和算法步骤
LaneATT
是一种基于 anchor
的单阶段模型,RGB
图像 I ∈ R 3 × H I × W I I∈R^{3×H_I×W_I} I∈R3×HI×WI 作为输入,输出是车道边界线。
作为主干的 CNN
会生成一个特征图,然后将其池化以提取每个 anchor
的特征。这些特征会和由注意力模块提取的一组全局特征相结合。最后,组合特征被传递到全连接层以预测最终输出车道。
3.1.车道和 anchor
表示
车道由等距 y
坐标 Y = { y i } i = 0 N p t s − 1 Y = \{y_i\}^{N_{pts}-1}_{i=0} Y={
yi}i=0Npts−1 和 x
坐标 X = { x i } i = 0 N p t s − 1 X = \{x_i\}^{N_{pts}-1}_{i=0} X={
xi}i=0Npts−1 。
基于锚的检测时使用线,由 (i) 位于图像边界之一的原点 O = ( x o r i g , y o r i g ) O = (x_{orig},y_{orig}) O=(xorig,yorig) (其中 y o r i g ∈ Y y_{orig} ∈Y yorig∈Y ) 和 (ii) 方向 θ
形成。使用起始索引 s
和结束索引 e
来定义 X
的有效连续序列。
3.2.主干网络
用如 resnet
的通用 CNN
输出特征图 F b a c k ∈ R C F ′ × H F × W F F_{back} ∈ R^{C^′_F ×H_F ×W_F} Fback∈RCF′×HF×WF,再用 1 x 1
卷积对 F b a c k F_{back} Fback 进行降维,生成通道缩减的特征图 F ∈ R C F × H F × W F F ∈R^{C_F ×H_F ×W_F} F∈RCF×HF×WF。
3.3.基于 anchor
的特征池化
锚定义了将用于各个建议的 F
点。由于锚被建模为线,因此给定锚的兴趣点是那些与锚的虚拟线相交的点。对于每个 y j = 0 , 1 , 2 , . . . , H F − 1 y_j = 0,1,2,...,H_F -1 yj=0,1,2,...,HF−1,将有一个对应的 x
坐标,
x j = 1 t a n θ ( y j − y o r i g / δ b a c k + x o r i g / δ b a c k ) — — — — ( 1 ) x_j = \frac{1}{tan\theta}(y_j-y_{orig}/\delta_{back}+x_{orig}/\delta_{back})————(1) xj=tanθ1(yj−yorig/δback+xorig/δ