兔斯基12138-CSDN博客

原创 BEVDet4D笔记

BEVFormer引入了历史BEV，BEVDet4D引入了时序信息，因为历史帧的信息可以对当前帧起到比较好的辅助作用，比如车辆朝向、运行速度，因为在当前帧中同一辆车很大可能是按照前一帧的方向运行。t-1时刻的BEV特征和t时刻的BEV特征是没办法直接相加的，空间上没有对齐，这里的BEV空间是以车辆为坐标原点，所以要融合多时刻的BEV特征，核心就是做空间层面的对齐。为什么时序信息对3D检测非常重要？

2023-08-04 00:53:12 448 1

原创 BEVDet笔记

BEV空间中不同类别的空间分布与图像视图的空间分布是完全不同的，图像视图相机的透视成像机制导致不同类别共享相似的空间分布，因此经典的NMS是对不同的类别采用相同的阈值，比如在2D目标检测中，两个实例的bounding box IoU是低于0.5的（这句话存疑），在BEV空间中，所有实例间的重叠接近于0，预测结果中IoU分布也因类别而异，在BEV空间中有些目标例如行人占比很小，冗余的框可能和GT间并没有交集，那就是IoU等于0，这就导致正样本和负样本空间关系如果依赖IoU的NMS其实是失效的。

2023-07-25 16:20:35 845

原创 BEVFormer笔记

里面使用的注意力机制是SE模块，SE的注意力机制的作用在通道上的，图中看到的不同颜色的权重其实是表示不同注意力的权重，通过对通道数值的重新加权，网络会自适应的关注或忽略某些部分的特征，假定颜色比较深的区域是权重比较大的地方，通过加权后，权重比较大的地方的特征会自适应的得到加强。对于高度，这里一个点对应4个query（图中红色点），这4个点分别去遍历所有视角的特征，最后再做一个整合（可能这一步是没必要的，只需要1个query就好），类似于多头注意力机制，非要说在不同高度做的聚合也可以。1、是一个重构空间。

2023-07-21 17:40:26 2477 3

原创 DETR3D笔记

2、对于尺寸的建模不是特别好，比如在gt中有个车是很长的，在预测结果中车相对而言是很短的，产生这样尺寸差异的原因是什么呢？DETR3D是可以利用重复特征去预测的，3D reference point对多视角分别投影，比如一个reference point投影回视角1的时候投影到重叠区域了，拿一次特征，投影回视角2的时候又投影到这个重叠区域了，又拿一次特征，是可以通过多视角特征进行融合的，所以对于重叠区域，DETR3D的检测融合的是多视角的特征，相比单一视角的检测而言，性能自然是有明显提升的。

2023-07-20 16:19:33 2611 1

原创锚框 anchor box和边缘框 bounding box

锚框和边界框

2022-10-18 15:13:38 1745

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 BEVDet4D笔记

原创 BEVDet笔记

原创 BEVFormer笔记

原创 DETR3D笔记

原创 锚框 anchor box和边缘框 bounding box

空空如也

空空如也

原创锚框 anchor box和边缘框 bounding box