An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations ...—

本文链接：https://blog.csdn.net/m_buddy/article/details/131355779

参考代码：暂无

1. 概述

介绍：transformer相关工作在车道线检测领域已经被证实是可行的，只不过大部分情况其耗时比较多，这是由于多数时候还构建了bev grid query去获取bev特征，而PETR这个方法直接在图像特征上加3D位置编码就快很多了。无论是显式构建bev特征还是直接在图像特征上加3D编码，它们都是拿对应特征与目标query做cross attention得到最后结果，而这篇文章的算法以lane query作为中间桥梁，分别与bev特征和图像特征做cross attention，得以将图像特征与bev特征关联起来，这样构建的检测器轻量且不同模态间信息能够相互关联。

2. 方法设计

2.1 整体pipeline

文章算法的结构见下图：
在这里插入图片描述
若是去掉最下面的分支文章的方法和PETR有点类似，但是这里添加了bev空间的位置编码，使得其能感知并预测bev下的分割结果。上述结构大体上可划分为如下几个部分：

1）lane query、图像特征、bev特征之间两两cross attention，在优化lane query表达的同时也提取和优化了bev特征
2）lane query得到的表达作为dynamic kernel参数分别与图像特征和bev特征做矩阵乘法得到对应感知结果。这些感知结果通过匈牙利匹配与GT关联，并计算loss反传

2.2 位置编码

图像域位置编码：
图像数据经过backbone之后得到特征 $F\in R^{H_a*W_a*C}$ ，则在假定的深度bins下可以得到图像的相机视锥矩阵 $G\in R^{H_a*W_a*D*4}$ ，而视锥矩阵可以依据相机内外参数变换到实际bev看空间下（ $p_j$ 来自于 $G$ ）：
$p_j^{'}=K^{-1}p_j$
上述的过程生成实际空间视锥表达 $G^{'}\in R^{H_a*W_a*D*4}$ ，同时通过网络预测的方式得到深度先验表达 $D\in R^{H_a*W_a*D}$ ，则图像域的位置编码被描述为：
$E_{uv}=[\sum_{d=1}^DD_{uvd}(G_{uvd}^{'}W_1+b_1)]W_2+b_2$
其中， $W_1\in R^{4*C/4}, b_1\in R^{C/4},W_2\in R^{C/4*C}, b_2\in R^{C}$ 。