唯一的小小彬-CSDN博客

原创 Pointpillar和Voxelnet

2、每个点云用D=9维的向量表示(x,y,z,r,xc,yc,zc,xp,yp)。其中x y z r代表点云的真实位置和反射强度，xc yc zc代表这个pillar中所有点云的中心，xp,yp代表该点云与点云中心的距离。3、假设每个样本可以分为P个pillar，每个pillar中有N个点，所以就可以得到(D,P,N)维的向量表示。如果多于N个点，其余的去除；1、首先根据点云坐标的xy坐标（不考虑z坐标）将点云数据划分到一个个网格中，落在一个网格中的数据可以认为是在一个pillar中。

2023-10-09 17:13:02 277

原创 CMT论文阅读

坐标编码模块用于将3D位置信息编码为多模态tokens，它生成image PE和PC PE，然后分别添加到image tokens和PC tokens中。将初始化的3D参考点分别转换到图像空间和点云空间，以在每个空间执行相对位置编码。query去做交互。CMT在没有显式视图转换的情况下，CMT将图像和点云tokens作为输入，并直接输出精确的3D框。对于3D检测来说，一个直观的理解是将图像和点云tokens拼接起来，然后将融合后的tokens和。使用从截锥体空间采样的3D点来指示每个像素的3D位置的概率。

2023-10-03 19:48:48 266 1

原创 Nuscense数据集介绍

待写。

2023-09-27 16:49:20 357

原创 SurroundOcc

然后这个简单的方法有很多弊端：1、只适用于完全静止的物体，忽略了移动的对象 2、多帧点云不够密集，存在许多漏掉的区域。对于每一帧，首先根据GT框从点云中剪切出动态物体，这样就获得了静态场景和动态对象的3D点。为了解决这个问题，本文建议分别缝合动态对象和静态对象的多帧激光雷达点，此外利用泊松重建来填充空洞，对获得的网格进行体素化，以获得密集的体素占用率。为了生成密集的占用标签，本文设计了一个pipeline，利用现有的3D检测和3D语义分割标签来生成dense occupancy GT。

2023-09-27 16:44:10 367

原创自动驾驶+行人重识别面经

1分析Fast-BEV方案和CVT方案的区别？为什么Fast-BEV方案要更好一点？2简述目前的BEV方案，可以分为几类，每一类的发展历程？3详细说说鱼眼去畸变模块

2023-09-16 16:21:20 229

原创论文阅读：Channel Augmented Joint Learning for Visible-Infrared Recognition

摘要本文针对可见光红外识别问题，提出了一种强大的信道增强联合学习策略。对于数据增强，大多数现有方法直接采用为单模态可见光图像设计的标准操作，因此在可见光到红外匹配中没有充分考虑图像特性。我们的基本思想是通过随机交换颜色通道来均匀地生成与颜色无关的图像。它可以无缝地集成到现有的增强操作中，而无需修改网络，从而持续提高对颜色变化的鲁棒性。结合随机擦除策略，通过模拟随机遮挡，进一步丰富了多样性。对于跨模态度量学习，我们设计了一种增强的通道混合学习策略，以同时处理具有平方差的跨模态和跨模态变化，从而获得更强的可

2022-05-13 16:11:20 1634 3

原创论文阅读：CGRNet

摘要目前跨模态行人重识别方法主要利用像素或特征对齐来处理类内变化和模态间的变化，缺点是很难在全局和局部表示之间保持语义身份的一致性。针对这个问题，本文提出了一种新的跨模态图推理方法（CGRNet），对模态和上下文之间的关系进行全局建模和推理，并保持全局和局部表示之间的语义一致性。本文主要贡献：（1）本文通过建模不同模态和上下文之间的相互依赖，开发了一种新的跨模态全局推理方法。（2）引入了一个局部模态相似性模块，在保留身份信息的同时减少模态问题。此外，图形推理模块还可以很好的推理RGB图像和I

2022-05-10 22:23:58 300

原创 H2HRG中HOSG和HGAM模块以及CMCC loss 在代码中的体现

HOSG首先将每幅图像进行均匀划分为6份，形成6个节点。代码中体现：for i in range(self.num_stripes): # local_6_feat = F.max_pool2d( # feat[:, :, i * stripe_h_6: (i + 1) * stripe_h_6, :], # (stripe_h_6, feat.size(-1))) local_6_f

2022-05-08 15:47:13 479