An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations ...——论文笔记

参考代码:暂无

1. 概述

介绍:transformer相关工作在车道线检测领域已经被证实是可行的,只不过大部分情况其耗时比较多,这是由于多数时候还构建了bev grid query去获取bev特征,而PETR这个方法直接在图像特征上加3D位置编码就快很多了。无论是显式构建bev特征还是直接在图像特征上加3D编码,它们都是拿对应特征与目标query做cross attention得到最后结果,而这篇文章的算法以lane query作为中间桥梁,分别与bev特征和图像特征做cross attention,得以将图像特征与bev特征关联起来,这样构建的检测器轻量且不同模态间信息能够相互关联。

2. 方法设计

2.1 整体pipeline

文章算法的结构见下图:
在这里插入图片描述
若是去掉最下面的分支文章的方法和PETR有点类似,但是这里添加了bev空间的位置编码,使得其能感知并预测bev下的分割结果。上述结构大体上可划分为如下几个部分:

  • 1)lane query、图像特征、bev特征之间两两cross attention,在优化lane query表达的同时也提取和优化了bev特征
  • 2)lane query得到的表达作为dynamic kernel参数分别与图像特征和bev特征做矩阵乘法得到对应感知结果。这些感知结果通过匈牙利匹配与GT关联,并计算loss反传

2.2 位置编码

图像域位置编码:
图像数据经过backbone之后得到特征 F ∈ R H a ∗ W a ∗ C F\in R^{H_a*W_a*C} FRHaWaC,则在假定的深度bins下可以得到图像的相机视锥矩阵 G ∈ R H a ∗ W a ∗ D ∗ 4 G\in R^{H_a*W_a*D*4} GRHaWaD4,而视锥矩阵可以依据相机内外参数变换到实际bev看空间下( p j p_j pj来自于 G G G):
p j ′ = K − 1 p j p_j^{'}=K^{-1}p_j pj=K1pj
上述的过程生成实际空间视锥表达 G ′ ∈ R H a ∗ W a ∗ D ∗ 4 G^{'}\in R^{H_a*W_a*D*4} GRHaWaD4,同时通过网络预测的方式得到深度先验表达 D ∈ R H a ∗ W a ∗ D D\in R^{H_a*W_a*D} DRHaWaD,则图像域的位置编码被描述为:
E u v = [ ∑ d = 1 D D u v d ( G u v d ′ W 1 + b 1 ) ] W 2 + b 2 E_{uv}=[\sum_{d=1}^DD_{uvd}(G_{uvd}^{'}W_1+b_1)]W_2+b_2 Euv=[d=1DDuvd(GuvdW1+b1)]W2+b2
其中, W 1 ∈ R 4 ∗ C / 4 , b 1 ∈ R C / 4 , W 2 ∈ R C / 4 ∗ C , b 2 ∈ R C W_1\in R^{4*C/4}, b_1\in R^{C/4},W_2\in R^{C/4*C}, b_2\in R^{C} W1R4C/4,b1RC/4,W2RC/4C,b2RC

bev特征位置编码:
对于bev特征 T ∈ R H b ∗ W b ∗ C T\in R^{H_b*W_b*C} TRHbWbC在给定bev特征空间到真实车体空间的转换矩阵之后便可以得到bev特征的空间网格矩阵 H ∈ R H b ∗ W b ∗ Z ∗ 4 H\in R^{H_b*W_b*Z*4} HRHb

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值