- 博客(24)
- 收藏
- 关注
原创 SA-BEV: Generating Semantic-Aware Bird’s-Eye-View Feature for Multi-view 3D Object Detection
对于显式深度估计,他会把伪点云投影到BEV平面压扁,但这个操作并没有利用图像特征的语义信息,并且会将大量的背景信息注入到BEV特征图中。因此本篇文章充分图像的语义信息,提出了Semantic-Aware的BEV Pooling,在投影到BEV空间前,首先预测特征图的语义分割,如果该点属于背景空间,则不会投影到BEV图中;此外,深度分数低的点也不会被投影。总的来说,SA-BEVPool能够有效过滤大多数背景BEV特征从而缓解背景信息淹没前景信息的问题,这里的语义分割是在深度分支上同时预测小尺寸图像特征的语义。
2025-05-12 17:08:36
801
原创 Simple-BEV论文解析
现有的工作为了避免昂贵的激光雷达,只使用多图像输入来生成BEV特征表示,忽略了radar数据;并且大多数技术都着重如何将图像特征lift到BEV平面,使用更大分辨率的输入与Backbone,这导致在多视角BEV感知下什么是最重要的这个问题缺乏研究。
2025-04-26 14:10:12
799
原创 BEVPoolv2:A Cutting-edge Implementation of BEVDet Toward Deployment
该论文是在BEVDet的基础上进行了一个调整优化,传统的方法是将特征图与深度预测进行外积得到视椎特征图,再将它与预处理好的体素索引结合,将每个视椎特征分类到每个voxel中进行累加和的操作。BEVFusion与BEVDepth等方法是避免了累加和,而是使用多线程的方法加速这个步骤,但它还是避免不了计算视椎特征并存储,显存与速度随着分辨率提高会效果不佳。
2025-04-25 20:08:28
259
原创 BEVFormer论文解读
相比于雷达点云,相机部署成本低,能够识别远距离物体与基于视觉的路面元素如交通灯等。相比于单目框架,BEV视图提供了对整体场景的表示,并且能很好地反映物体的尺度与位置信息。此外,BEV空间能够作为一个理想的中介来联系时空间,时间信息能够帮助我们推理物体的运动状态以及识别被遮挡的物体,而在自动驾驶任务中,物体变化速度快且实时性要求高,简单堆叠多帧BEV特征不是最优的。
2025-04-23 19:45:54
846
原创 BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection
基于多视角图片的3D感知被LSS证明是可行的,它使用估计的深度将图像特征转化为3D视椎,再将其压缩到BEV平面上。对于这个得到的BEV特征图,它支持端到端训练以及各种下游任务。但是对于深度估计这一块学习的深度质量如何,到目前为止没有相关工作研究。
2025-04-22 22:44:59
1077
原创 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection
对于现有的BEVDet方法,它对于速度的预测误差要高于基于点云的方法,对于像速度这种与时间有关的属性,仅靠单帧数据很难预测好。因此本文提出了BEVDet4D,旨在获取时间维度上的丰富信息。它是在BEVDet的基础上进行拓展,保留了之前帧的BEV特征,并将其进行空间对齐后与当前帧对应BEV特征连接。在nuscenes数据集上证明其可行性发现,不仅速度误差mAVE从0.909降低到0.337,在其他分数也有提升,mAP提升2.6%,NDS提升了8.4%,达到了42.1%mAP与54.5%NDS。
2025-04-21 19:16:12
892
原创 BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
在自动驾驶场景下,以往工作是目标检测任务用图像视角做,语义分割用BEV视角做。本文提出了BEVDet,实现了一个统一的框架,它模块化设计分为图像编码器,视角转换器,BEV编码器以及BEV空间的3D检测头。然而框架定下来不代表性能好了,BEVDet在BEV空间上过拟合了,这需要在图像空间增加数据增强,但只有在没有BEV Encoder时才会有正效果。此外,由于图像空间到BEV空间是像素级联系的,图像空间的数据增强并不会对BEV编码器与检测头有正则化效果。所以这里我们在来增加鲁棒性。
2025-04-20 20:08:24
996
原创 Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion论文解析
对于历史采样点可以进一步优化。对于instance reweight 可以设计的更好mamba提升全局注意力,可以考虑加入。时序性上的工作可以进一步优化。
2025-04-13 15:13:49
643
原创 nuscenes数据集分析
所有的标注数据与元数据都以关系数据库的形式组织起来,接下来将分别介绍。下面三个记录了我们需要标注的属性对于,记录了四种不同程度的可见程度。对于,记录了动态物体的运动状态,也就是上一节说到的Vehicle Activity等等,通过token进行标识。对于category,记录的就是类别信息,一共有23类。下面四个则是我们汽车的一些记录信息,如传感器参数,地图等。对于log。
2025-04-09 21:06:47
1380
原创 DETR3D论文解析
3D 目标检测是自动驾驶的重要任务之一,传统方法通常依赖于 LiDAR 点云数据。然而,LiDAR 设备昂贵且数据处理复杂,因此基于相机的 3D 目标检测逐渐成为研究热点。,它直接在 3D 空间中进行目标查询,并结合多视角 2D 图像特征进行检测,无需深度预测或点云数据。为了解决这些问题,本文提出了一种新的基于 Transformer 的多相机 3D 目标检测方法——
2025-04-08 11:07:11
538
原创 mmengine使用教程(一)
注册器可以看做是映射表和模块构建方法的组合,映射表维护了一个字符串到类或者函数的映射,使我们可以直接通过字符串找到对应类或函数,模块构建方法则告诉我们如何根据字符串找到对应类或函数以及怎么实例化这个类或者调用这个函数。对于每个注册器管理的类或函数,通常具有相似的接口或功能,因此注册器可以看做是类或函数的抽象,就比如注册器MODELS可以看做是所有模型的抽象。返回的是一个字典,字典中key代表一个参数或者一个模块,value代表其中的参数数量,而key""代表模型的总参数数量。
2025-03-31 18:34:39
812
原创 QUEST: Query Stream for Practical Cooperative Perception
协同感知领域,现在最为流行的是中融合策略,即传输中间特征给协同智能体。为了实现带宽与性能间的平衡,在传输特征方面,现有方法使用了压缩或特征选择的方法。尽管现有的方法能取得不错的效果,但是对于特征选择、融合等的可解释性有限,毕竟场景特征图只是抽象的代表整个场景。而后融合则是将目标检测结果传输并融合,可解释性强。本文提出的方法就是在这两者之间取平衡,实现了不错的效果。
2025-03-29 21:07:56
732
原创 扩散模型Denoising Diffusion Probabilistic Models解析
图像生成模型,一般是根据随机数生成新图像,而随机数一般是标准正态分布。因此想要生成新图像只要从标准正态分布中采样即可。要想学习数据分布从而生成新图像,我们使用大量的数据训练神经网络。由于图像生成模型缺乏有效的指导,VAE等模型通过将图像生成为向量再生成图像,并尽可能使重构图像与原图像一样,从而给出较好的指导。扩散模型算一种特殊的VAE,它分为正向过程与反向过程两个部分,对应着编码器与解码器两个部分。接下来将分别介绍这个两个部分的实现。
2025-03-23 19:29:31
876
原创 VAE的学习及先验知识
(可以这么考虑,潜在表示保存了原图像的关键信息,可以通过它重构原图像,这就是一个因果关系,但是能够重构原图像的因不止有一个,因此潜在表示应该是一个不确定变量,是一个概率分布。对于潜在空间z的先验分布,一般假设其符合标准正态分布,对于近似后验分布,我们假设其符合正态分布,为了学习它的均值与方差,使用了神经网络进行学习,这两个值通过两个不同的神经网络进行学习。而为了使KL散度最小,就是使上式最小,也就是它的相反数最大,下方这个又称为证据下界(变分下界,ELBO),要使其最大化。在此之前先讲些基础的术语。
2025-03-22 23:54:03
1068
原创 mmcv基础教程(二)
构建归一化层,返回tuple[str,nn.Module],第一个元素是层的名字,由缩写与后缀组成,在有ModuleDict的时候可以作为键索引对应的模块。构建上采样层,有以下这些可用的cfg中的type如nearest,bilinear,deconv,pixel_shuffle等。自适应权重标准化卷积,计算每个卷积核各个通道的均值与方差,并用与BN类似的学习参数自适应甲醛,实现权重归一化。构建填充层,它的参数包含cfg,其中包含type还有实例化所需参数,此外还有args与kwargs。
2025-03-21 15:46:26
897
原创 GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond论文解析
捕捉远距离依赖能够表示对于全局的理解,而CNN是捕捉局部区域的关系,要捕捉长期依赖全局关系,则需要不断叠加卷积层增加感受野,这样是低效的,并且远距离位置很难传递有效信息。为了解决这个问题,已有工作提出了非局部网络,它通过引入单层的自注意力模块学习远距离依赖,注意力得到的最后输出再与输入做残差即可。
2025-03-20 15:02:23
643
原创 mmcv基础教程(一)
mmcv包含有mmcv与mmcv-lite两种,前者包含mmcv的所有功能,而后者则缺乏基于cuda的操作。对于你现有的cuda与torch版本若没有对应的mmcv已编译好的whl文件,则需要从github等网址下载源码在自己的环境下,本地编译安装。返回None,参数只有backend:类型为str,确认图像编码的后端,有cv2,pillow等。返回类型是ndarray类型的灰度图,它的参数就是ndarray类型的数据。它的作用就是随机遮挡,输出是遮挡后的图,类型是ndarray。
2025-03-19 16:53:07
826
原创 JAVA笔记(二)
一个类包含五个部分:成员变量,成员方法,构造器,代码块,内部类。//成员变量,完整定义格式是//修饰词 数据类型 变量名称=初始化值//成员方法System.out.println("打电话")获取对象的方法:类名 对象名=new 类名()。访问属性:对象名.成员变量访问行为:对象名.方法名(…)用来描述一类事物的类,叫做Javabean类,其中不写main方法。而编写main方法的叫做测试类,我们在其中可以创建Javabean类对象赋值调用。
2025-03-19 12:04:38
1195
原创 DeiT:Data-efficient image Transformers论文解析
VIT在训练数据不足的情况下不能很好地泛化。本文提出的DeiT基于Vison Transformer的基础上进行优化,能够在较短的时间内训练出较好的性能,同时避免依赖外部超大规模数据集,并且使用了蒸馏模型,在VIT的基础上增加了distillation token,用于还原教师模型的输出,最终实现了模型的性能进一步提升,更快的收敛。
2025-03-16 16:54:09
840
原创 Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection论文解析
对于单车目标检测,存在感知受限以及视角盲区的问题。而车与基础设施的协同感知能够解决这种问题,基础设施的雷达或摄像头能够提供更广阔的视野,因此能够提供有效信息,提高感知能力。VIC3D问题其实就是在带宽受限的情况下多传感器检测问题,他存在两个主要挑战:该文章做出的贡献是:提出了Feature Flow Net框架,它解决了不确定的时间异步性以及带宽受限的问题。它主要包含三个步骤:从连续的基础设施帧中生成特征流,压缩特征流进行传输,与自车特征融合得到检测输出。其中特征流实现特征预测,降低了时间不对齐导致的
2025-03-09 22:24:57
820
原创 VIT模型学习
对于模型架构更细节地描述:输入图像首先交给Embedding层,它会将图像按照patch大小切分成n_patch个embedding向量,embedding向量再和随机初始化的位置向量相加,得到的输出交给Encoder,它有多个encoder层。每层encoder包含了LayerNorm,残差连接,MSA模块与MLP模块。现在的方法使用的PreNorm的方法,即将输入先LayerNorm再交给MSA模块,与输入残差后作为新的输入再LayerNorm后交给MLP层,同样进行残差连接。
2025-03-05 20:42:22
740
原创 FCOS: Fully Convolutional One-Stage Object Detection论文解析
Faster RCNN、YOLOv2、SSD等方法都是基于锚框实现目标检测,但是这种anchor box based方法存在一定的缺陷:1、检测性能受限于锚框大小、长宽比以及数量,因此需要不断调整这些超参数,对于不同的任务还得重新调整。2、这些锚框的大小、长宽比等是固定不变的,因此在检测存在巨大形状差异的候选框时存在挑战,尤其是小物体。3、这种方法一般需要较多的锚框,其中大多数都是背景负样本,会造成训练时正负样本的不平衡。
2025-03-01 17:50:37
750
原创 JAVA笔记(一)
它的弊端就是,当原码表示负数时进行计算,实际运算的方向与正确的方向是相反的,i,e,,10000001表示-1,对其进行+1操作理想状态应该得到0,但是得到的是10000010表示-2。它的弊端就是对于0存在+0,反码为00000000,以及-0,反码为11111111,当存在跨零运算时,0需要跨越两次,因此会存在1的偏差。因此,对于常用的文件,为了减少寻找对应路径所需的时间,可以将路径加入到环境变量的path中。计算机的存储与计算都是以补码的形式进行的,因此需要搞明白原码、反码、补码的概念。
2025-02-27 16:41:57
1111
原创 PointRCNN论文解析
在3D目标检测任务中,点云数据由于其数据格式不规则e.g.无序性,以往工作或采用成熟的2D检测方法,将其投影到鸟瞰图或前视图,或是投影到体素空间上进行三位卷积,这些方法容易丢失信息,且算法耗时不佳。PointNet实现了直接对点云处理进行后续的分类与分割任务,Frustum pointnet则是首次使用PointNet,将其应用在3D目标检测上。
2025-02-25 16:10:23
774
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人