1分析Fast-BEV方案和CVT方案的区别?为什么Fast-BEV方案要更好一点?
2简述目前的BEV方案,可以分为几类,每一类的发展历程?
使用深度估计:LSS➡BEVDet➡BEVDet4D➡BEVDepth➡BEVFusion
tranformer的方式:BEVFormer➡BEVFormerV2
使用Fast-ray的方式:M2BEV➡Fast-BEV
CVT: CVT➡GKT(Geometry-guided Kernel Transformer)
不生成BEV特征的方式:DETR3D➡PETR
3详细说说鱼眼去畸变模块,和去畸变函数相比有什么优点?
在Fast-bev方案中,是先将BEV空间划分为一个个voxel格子,我们可以获得每个格子的3D坐标,然后我们可以通过相机内外参投影到2D的图像空间。但是和普通的针孔相机相比,鱼眼相机有一个折射角度,这样如果仅按照内外参投影的话,是投不到准确的2D图像位置的。但是针孔相机的投影的2D点和鱼眼相机投影的2D点存在一定关系,这个关系可以通畸变参数表示。所以我们先根据相机的外参将3D点投影到2D图像坐标系,然后利用鱼眼相机的畸变参数对投影点进行矫正,就能得到3D点正确的投影位置了。
与去畸变函数相比:①不会减小视场,图像不会失真 ②速度较快
4.数据级融合、特征级融合、决策级融合各有什么优缺点?
数据级融合优缺点:
①可以从整体上来处理信息,让数据更早做融合,从而让数据更有关联性,比如把激光雷达的点云数据和摄像头的像素级数据进行融合,数据的损失也比较少。
②挑战也很明显,因为视觉数据和激光雷达点云数据是异构数据,其坐标系不同,视觉数据是2D图像空间,而激光雷达点云是3D空间,在进行融合时,只能在图像空间里把点云放进去,给图像提供深度信息,或者在点云坐标系里,通过给点云染色或做特征渲染,而让点云具有更丰富的语义信息。坐标系的不同,也导致前融合的效果并不理想,一方面,前融合需要处理的数据量较大,对算力要求较高;另一方面,前融合要想达到好的效果,对融合策略要求较高,过程非常复杂,所以目前业内应用并不多。
特征级融合(BEV):
优点:有效特征在BEV空间进行融合,一来数据损失少,二来算力消耗也较少(相对于前融合),所以一般在BEV空间进行中融合比较多。
决策级融合(后融合)优缺点:
①后融合算法比较简单,每种传感器的识别结果输入到融合模块,融合模块对各传感器在不同场景下的识别结果,设置不同的置信度,最终根据融合策略进行决策。
②各自传感器经过目标识别再进行融合时,中间损失了很多有效信息,影响了感知精度,而且最终的融合算法,仍然是一种基于规则的方法,要根据先验知识来设定传感器的置信度,局限性很明显
5Tesla AI Day占用网络 其实是一个3D的分割网络
目前存在一些问题:①从2D图像很难得到稳定的深度预测
②遮挡问题
③预测的结构来自2D,而不是3D真实世界
④不能得到悬挂的障碍物(coner case)
⑤还是coner case
Occ Network去掉了三个东西:BEV、3D bbox、目标检测
Occ对比于BEV
占用网格相比于3D bbox
6.Pointpillar和Voxelnet的工作原理
7.self-attention为什么要尺度化
softmax对较大的输入比较敏感,如果输入的值较大,会进入softmax的饱和区,从而使梯度下降较慢,除以根号下k对输入进行缩放,就能防止进入softmax进入饱和区。
8.BN层的作用
把越来越偏的分布强制拉回比较标准的分布
9.Transformer中一个block的具体结构
输入先经过层正则化然后经过self-attention,然后残差连接,然后层正则化,MLP残差连接。
CVT中的cross_attention
10.如何加快transformer的收敛