BEV
文章平均质量分 92
bev
aolaf
这个作者很懒,什么都没留下…
展开
-
BEV (3)---DETR3d
①. 利用Resnet101 + fpn提取6张环视图像特征,获得1/4, 1/8, 1/16, 1/32, 4个不同尺度的输出(②. 预设900个预测框(object_querys), 拆分object query为query和query_pos, 利用全连接处理query_pos获得BEV空间3D reference point (x, y, z)的预测结果。原创 2023-05-16 20:27:32 · 2087 阅读 · 1 评论 -
BEV(2)----BEVDepth
常见的自底向上方法的会显示的估计每个特征点的距离,但是这些距离是隐式学习的,在BEVDepth中会利用lidar的点云来监督预测出来的深度,使得预测的距离更加接近真实值。此外,考虑到相机外参可能会对结果进行干扰,文章增加一个网络来学习相机参数,作为注意力权重作用于图像和深度特征。同时,利用cuda实现了高效的体素池化操作。原创 2023-05-05 23:22:16 · 1680 阅读 · 0 评论 -
BEV(1)---lift splat shoot
如图,已知世界坐标系上的某点P(X, Y, Z)经过相机的内参矩阵可以获得唯一的图像坐标p(x, y),但是反过来已知图像上某点p(x, y),无法获得唯一的世界坐标(只能知道P在Op这一射线上),只有当深度坐标Z已知时,我们才可求得唯一的世界坐标P,因此2D坐标往3D坐标的转换多围绕Z的获取展开。原创 2023-04-16 22:44:21 · 1324 阅读 · 0 评论 -
BEV (0)---DETR
①. 对给定的输入图像通过resnet进行特征提取,最终得到特征图C5∈R,其中h、w为输入图像尺寸得1/32。随后再用一层1×1卷积压缩一下通道,得到特征图P5∈R。将其转换为Transformer输入格式:[B, h*w, 256]。②. 为了保证图像二维的特性,需要在X和Y两个维度都去计算Position Embedding。利用Position Embedding为输入序列提供位置信息。综上,经过self.backbone(),可以获得图像特征src以及对应得位置编码pos。原创 2023-04-30 21:00:28 · 630 阅读 · 0 评论 -
BEV(0)---Transformer
Transformer是一个Sequence to Sequence model,特别之处在于它大量用到了self-attention,替代了RNN,原创 2023-04-30 17:22:08 · 3713 阅读 · 0 评论