butterfly won＇t love flowers-CSDN博客

原创 IAE-BEV:Instance-Adaptive Enhancement for BEV-Based Multi-View 3D Object Detection

对于基于query的BEV方法，计算量大，对于BEV图的分辨率大小有限制。对于基于LSS的方法，它的问题是在压缩高度时会混入过多的背景噪声，从而无法获得准确的垂直信息并且对于实例特征也稀释了。此外，BEV特征图是稀疏的。对于FB-BEV的优化是建立在第一阶段的初始特征，这会限制双流融合的效果。对于BEV-Free的方法，是使用query和transformer的decoder来采样2D图像特征，从而得到实例级的query表示。

2025-09-09 22:39:07 392 2

原创 GaussianLSS

GaussianLSS通过创新性地结合深度不确定性建模与高效的多尺度BEV特征渲染，成功解决了深度模糊性的固有挑战。这种方法不仅在基于反投影的方法中实现了最先进的性能，还在降低计算资源需求方面表现出色，使其特别适合自动驾驶的实时应用场景。GaussianLSS的成功证明了显式不确定性建模在提升空间感知任务性能中的价值，为未来BEV感知系统的发展提供了新的研究方向。

2025-08-19 21:44:49 1104

原创 BEVStereo

在介绍这个之前，必须首先了解一下什么是MVS，MVS就是通过多个辅助视图，帮助我们参考视图进行深度预测，并得到最后稠密的三维建模点云。而基于学习的方法MVSNet则具备突破性。

2025-07-11 15:57:24 1067

原创 SA-BEV: Generating Semantic-Aware Bird’s-Eye-View Feature for Multi-view 3D Object Detection

对于显式深度估计，他会把伪点云投影到BEV平面压扁，但这个操作并没有利用图像特征的语义信息，并且会将大量的背景信息注入到BEV特征图中。因此本篇文章充分图像的语义信息，提出了Semantic-Aware的BEV Pooling，在投影到BEV空间前，首先预测特征图的语义分割，如果该点属于背景空间，则不会投影到BEV图中；此外，深度分数低的点也不会被投影。总的来说，SA-BEVPool能够有效过滤大多数背景BEV特征从而缓解背景信息淹没前景信息的问题，这里的语义分割是在深度分支上同时预测小尺寸图像特征的语义。

2025-05-12 17:08:36 994

原创 Simple-BEV论文解析

现有的工作为了避免昂贵的激光雷达，只使用多图像输入来生成BEV特征表示，忽略了radar数据；并且大多数技术都着重如何将图像特征lift到BEV平面，使用更大分辨率的输入与Backbone，这导致在多视角BEV感知下什么是最重要的这个问题缺乏研究。

2025-04-26 14:10:12 902

原创 BEVPoolv2：A Cutting-edge Implementation of BEVDet Toward Deployment

该论文是在BEVDet的基础上进行了一个调整优化，传统的方法是将特征图与深度预测进行外积得到视椎特征图，再将它与预处理好的体素索引结合，将每个视椎特征分类到每个voxel中进行累加和的操作。BEVFusion与BEVDepth等方法是避免了累加和，而是使用多线程的方法加速这个步骤，但它还是避免不了计算视椎特征并存储，显存与速度随着分辨率提高会效果不佳。

2025-04-25 20:08:28 310

原创 BEVFormer论文解读

相比于雷达点云，相机部署成本低，能够识别远距离物体与基于视觉的路面元素如交通灯等。相比于单目框架，BEV视图提供了对整体场景的表示，并且能很好地反映物体的尺度与位置信息。此外，BEV空间能够作为一个理想的中介来联系时空间，时间信息能够帮助我们推理物体的运动状态以及识别被遮挡的物体，而在自动驾驶任务中，物体变化速度快且实时性要求高，简单堆叠多帧BEV特征不是最优的。

2025-04-23 19:45:54 1028

原创 BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection

基于多视角图片的3D感知被LSS证明是可行的，它使用估计的深度将图像特征转化为3D视椎，再将其压缩到BEV平面上。对于这个得到的BEV特征图，它支持端到端训练以及各种下游任务。但是对于深度估计这一块学习的深度质量如何，到目前为止没有相关工作研究。

2025-04-22 22:44:59 1236

原创 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

对于现有的BEVDet方法，它对于速度的预测误差要高于基于点云的方法，对于像速度这种与时间有关的属性，仅靠单帧数据很难预测好。因此本文提出了BEVDet4D，旨在获取时间维度上的丰富信息。它是在BEVDet的基础上进行拓展，保留了之前帧的BEV特征，并将其进行空间对齐后与当前帧对应BEV特征连接。在nuscenes数据集上证明其可行性发现，不仅速度误差mAVE从0.909降低到0.337，在其他分数也有提升，mAP提升2.6%,NDS提升了8.4%，达到了42.1%mAP与54.5%NDS。

2025-04-21 19:16:12 1060

原创 BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

在自动驾驶场景下，以往工作是目标检测任务用图像视角做，语义分割用BEV视角做。本文提出了BEVDet，实现了一个统一的框架，它模块化设计分为图像编码器，视角转换器，BEV编码器以及BEV空间的3D检测头。然而框架定下来不代表性能好了，BEVDet在BEV空间上过拟合了，这需要在图像空间增加数据增强，但只有在没有BEV Encoder时才会有正效果。此外，由于图像空间到BEV空间是像素级联系的，图像空间的数据增强并不会对BEV编码器与检测头有正则化效果。所以这里我们在来增加鲁棒性。

2025-04-20 20:08:24 1130

原创 Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion论文解析

对于历史采样点可以进一步优化。对于instance reweight 可以设计的更好mamba提升全局注意力，可以考虑加入。时序性上的工作可以进一步优化。

2025-04-13 15:13:49 856

原创 nuscenes数据集分析

所有的标注数据与元数据都以关系数据库的形式组织起来，接下来将分别介绍。下面三个记录了我们需要标注的属性对于，记录了四种不同程度的可见程度。对于，记录了动态物体的运动状态，也就是上一节说到的Vehicle Activity等等，通过token进行标识。对于category，记录的就是类别信息，一共有23类。下面四个则是我们汽车的一些记录信息，如传感器参数，地图等。对于log。

2025-04-09 21:06:47 1779

原创 DETR3D论文解析

3D 目标检测是自动驾驶的重要任务之一，传统方法通常依赖于 LiDAR 点云数据。然而，LiDAR 设备昂贵且数据处理复杂，因此基于相机的 3D 目标检测逐渐成为研究热点。，它直接在 3D 空间中进行目标查询，并结合多视角 2D 图像特征进行检测，无需深度预测或点云数据。为了解决这些问题，本文提出了一种新的基于 Transformer 的多相机 3D 目标检测方法——

2025-04-08 11:07:11 675

原创 mmengine使用教程（一）

注册器可以看做是映射表和模块构建方法的组合，映射表维护了一个字符串到类或者函数的映射，使我们可以直接通过字符串找到对应类或函数，模块构建方法则告诉我们如何根据字符串找到对应类或函数以及怎么实例化这个类或者调用这个函数。对于每个注册器管理的类或函数，通常具有相似的接口或功能，因此注册器可以看做是类或函数的抽象，就比如注册器MODELS可以看做是所有模型的抽象。返回的是一个字典，字典中key代表一个参数或者一个模块，value代表其中的参数数量，而key""代表模型的总参数数量。

2025-03-31 18:34:39 1309

原创 QUEST: Query Stream for Practical Cooperative Perception

协同感知领域，现在最为流行的是中融合策略，即传输中间特征给协同智能体。为了实现带宽与性能间的平衡，在传输特征方面，现有方法使用了压缩或特征选择的方法。尽管现有的方法能取得不错的效果，但是对于特征选择、融合等的可解释性有限，毕竟场景特征图只是抽象的代表整个场景。而后融合则是将目标检测结果传输并融合，可解释性强。本文提出的方法就是在这两者之间取平衡，实现了不错的效果。

2025-03-29 21:07:56 800

原创扩散模型Denoising Diffusion Probabilistic Models解析

图像生成模型，一般是根据随机数生成新图像，而随机数一般是标准正态分布。因此想要生成新图像只要从标准正态分布中采样即可。要想学习数据分布从而生成新图像，我们使用大量的数据训练神经网络。由于图像生成模型缺乏有效的指导，VAE等模型通过将图像生成为向量再生成图像，并尽可能使重构图像与原图像一样，从而给出较好的指导。扩散模型算一种特殊的VAE，它分为正向过程与反向过程两个部分，对应着编码器与解码器两个部分。接下来将分别介绍这个两个部分的实现。

2025-03-23 19:29:31 965

原创 VAE的学习及先验知识

（可以这么考虑，潜在表示保存了原图像的关键信息，可以通过它重构原图像，这就是一个因果关系，但是能够重构原图像的因不止有一个，因此潜在表示应该是一个不确定变量，是一个概率分布。对于潜在空间z的先验分布，一般假设其符合标准正态分布，对于近似后验分布，我们假设其符合正态分布，为了学习它的均值与方差，使用了神经网络进行学习，这两个值通过两个不同的神经网络进行学习。而为了使KL散度最小，就是使上式最小，也就是它的相反数最大，下方这个又称为证据下界（变分下界，ELBO），要使其最大化。在此之前先讲些基础的术语。

2025-03-22 23:54:03 1196

原创 mmcv基础教程(二)

构建归一化层，返回tuple[str,nn.Module]，第一个元素是层的名字，由缩写与后缀组成，在有ModuleDict的时候可以作为键索引对应的模块。构建上采样层，有以下这些可用的cfg中的type如nearest，bilinear，deconv，pixel_shuffle等。自适应权重标准化卷积，计算每个卷积核各个通道的均值与方差，并用与BN类似的学习参数自适应甲醛，实现权重归一化。构建填充层，它的参数包含cfg，其中包含type还有实例化所需参数，此外还有args与kwargs。

2025-03-21 15:46:26 1186

原创 GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond论文解析

捕捉远距离依赖能够表示对于全局的理解，而CNN是捕捉局部区域的关系，要捕捉长期依赖全局关系，则需要不断叠加卷积层增加感受野，这样是低效的，并且远距离位置很难传递有效信息。为了解决这个问题，已有工作提出了非局部网络，它通过引入单层的自注意力模块学习远距离依赖，注意力得到的最后输出再与输入做残差即可。

2025-03-20 15:02:23 719

原创 mmcv基础教程（一）

mmcv包含有mmcv与mmcv-lite两种，前者包含mmcv的所有功能，而后者则缺乏基于cuda的操作。对于你现有的cuda与torch版本若没有对应的mmcv已编译好的whl文件，则需要从github等网址下载源码在自己的环境下，本地编译安装。返回None，参数只有backend：类型为str，确认图像编码的后端，有cv2，pillow等。返回类型是ndarray类型的灰度图，它的参数就是ndarray类型的数据。它的作用就是随机遮挡，输出是遮挡后的图，类型是ndarray。

2025-03-19 16:53:07 1073

原创 JAVA笔记(二)

一个类包含五个部分：成员变量，成员方法，构造器，代码块，内部类。//成员变量，完整定义格式是//修饰词数据类型变量名称=初始化值//成员方法System.out.println("打电话")获取对象的方法：类名对象名=new 类名()。访问属性：对象名.成员变量访问行为：对象名.方法名（…）用来描述一类事物的类，叫做Javabean类，其中不写main方法。而编写main方法的叫做测试类，我们在其中可以创建Javabean类对象赋值调用。

2025-03-19 12:04:38 1247

原创 DeiT：Data-efficient image Transformers论文解析

VIT在训练数据不足的情况下不能很好地泛化。本文提出的DeiT基于Vison Transformer的基础上进行优化，能够在较短的时间内训练出较好的性能，同时避免依赖外部超大规模数据集，并且使用了蒸馏模型，在VIT的基础上增加了distillation token，用于还原教师模型的输出，最终实现了模型的性能进一步提升，更快的收敛。

2025-03-16 16:54:09 1019

原创 Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection论文解析

对于单车目标检测，存在感知受限以及视角盲区的问题。而车与基础设施的协同感知能够解决这种问题，基础设施的雷达或摄像头能够提供更广阔的视野，因此能够提供有效信息，提高感知能力。VIC3D问题其实就是在带宽受限的情况下多传感器检测问题，他存在两个主要挑战：该文章做出的贡献是：提出了Feature Flow Net框架，它解决了不确定的时间异步性以及带宽受限的问题。它主要包含三个步骤：从连续的基础设施帧中生成特征流，压缩特征流进行传输，与自车特征融合得到检测输出。其中特征流实现特征预测，降低了时间不对齐导致的

2025-03-09 22:24:57 946

butterflies_的博客