自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 BEVDet4D笔记

BEVFormer引入了历史BEV,BEVDet4D引入了时序信息,因为历史帧的信息可以对当前帧起到比较好的辅助作用,比如车辆朝向、运行速度,因为在当前帧中同一辆车很大可能是按照前一帧的方向运行。t-1时刻的BEV特征和t时刻的BEV特征是没办法直接相加的,空间上没有对齐,这里的BEV空间是以车辆为坐标原点,所以要融合多时刻的BEV特征,核心就是做空间层面的对齐。为什么时序信息对3D检测非常重要?

2023-08-04 00:53:12 233 1

原创 BEVDet笔记

BEV空间中不同类别的空间分布与图像视图的空间分布是完全不同的,图像视图相机的透视成像机制导致不同类别共享相似的空间分布,因此经典的NMS是对不同的类别采用相同的阈值,比如在2D目标检测中,两个实例的bounding box IoU是低于0.5的(这句话存疑),在BEV空间中,所有实例间的重叠接近于0,预测结果中IoU分布也因类别而异,在BEV空间中有些目标例如行人占比很小,冗余的框可能和GT间并没有交集,那就是IoU等于0,这就导致正样本和负样本空间关系如果依赖IoU的NMS其实是失效的。

2023-07-25 16:20:35 437

原创 BEVFormer笔记

里面使用的注意力机制是SE模块,SE的注意力机制的作用在通道上的,图中看到的不同颜色的权重其实是表示不同注意力的权重,通过对通道数值的重新加权,网络会自适应的关注或忽略某些部分的特征,假定颜色比较深的区域是权重比较大的地方,通过加权后,权重比较大的地方的特征会自适应的得到加强。对于高度,这里一个点对应4个query(图中红色点),这4个点分别去遍历所有视角的特征,最后再做一个整合(可能这一步是没必要的,只需要1个query就好),类似于多头注意力机制,非要说在不同高度做的聚合也可以。1、是一个重构空间。

2023-07-21 17:40:26 1356 3

原创 DETR3D笔记

2、对于尺寸的建模不是特别好,比如在gt中有个车是很长的,在预测结果中车相对而言是很短的,产生这样尺寸差异的原因是什么呢?DETR3D是可以利用重复特征去预测的,3D reference point对多视角分别投影,比如一个reference point投影回视角1的时候投影到重叠区域了,拿一次特征,投影回视角2的时候又投影到这个重叠区域了,又拿一次特征,是可以通过多视角特征进行融合的,所以对于重叠区域,DETR3D的检测融合的是多视角的特征,相比单一视角的检测而言,性能自然是有明显提升的。

2023-07-20 16:19:33 1133

原创 锚框 anchor box和边缘框 bounding box

锚框和边界框

2022-10-18 15:13:38 1493 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除