自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

2024-09-30 10:00:55 79

原创 NVLM:开放级别的多模态大语言模型

2024-09-30 09:35:52 251

原创 扩散模型DDPM代码实践

【代码】扩散模型DDPM代码实践。

2024-09-29 21:06:06 446

原创 扩散模型学习

DiT的核心思想:Diffusion Transformer的核心思想是使用Transformer作为扩散模型的骨干网络,而不是传统的卷积神经网络(如U-Net),以处理图像的潜在表示。DiT的定义:Diffusion Transformer是一种结合了Transformer架构的扩散模型,用于图像和视频生成任务,能够高效地捕获数据中的依赖关系并生成高质量的结果。先验概率和后验概率是贝叶斯统计学中的两个重要概念,用于描述事件发生的概率在更新观测数据后的变化情况。中得到广泛的应用,比如。

2024-09-29 15:58:36 675

原创 vscode对python进行多卡调试

在 VSCode 中对 Python 进行多卡(多GPU)调试,尤其是对于深度学习任务(例如使用 PyTorch 或 TensorFlow),你需要结合 VSCode 的调试功能与分布式训练框架来实现。多卡调试通常意味着你要调试并行的计算任务,这需要协调多个 GPU 的计算资源和并发代码的执行。

2024-09-16 22:51:42 862

原创 使用 GaLore 预训练LLaMA-7B

项目代码:https://github.com/jiaweizzhao/galorehttps://github.com/jiaweizzhao/galore参考博客:https://zhuanlan.zhihu.com/p/686686751基础环境配置如下:conda create -n GaLore python=3.10安装依赖包其中,requirements.txt 文件为:pip install tensorly注意:Pytorch 需确保2.1.0以上,不然会报错。本文使用 C4

2024-09-16 22:44:29 1139

原创 Sparse4D v1

基于鸟瞰图 (BEV) 的方法最近在多视图 3D 检测任务方面取得了重大进展。与基于 BEV 的方法相比,基于稀疏的方法在性能上落后,但仍然有很多不可忽略的优点。为了进一步推动稀疏 3D 检测,在这项工作中,我们介绍了一种名为 Sparse4D 的新方法,该方法通过稀疏采样和融合时空特征对锚框进行迭代细化。(1)稀疏 4D 采样:对于每个 3D 锚点,我们分配多个 4D 关键点,然后将其投影到多视图/尺度/时间戳图像特征以采样相应的特征;

2024-09-14 23:01:58 1271

原创 路径规划 C++(Ⅱ)

这段代码看起来是一个简单的 ROS 2 节点的主函数,用于初始化 ROS 2,创建 PlanningNode 实例,执行节点的主循环以及最后关闭 ROS 2。:初始化 ROS 2,传入命令行参数argc和argv。:创建了一个名为的类的实例,使用分配内存并返回一个指向该内存的智能指针。:打印启动信息,使用 ROS 2 的日志记录功能记录消息到节点的日志。:执行节点的主循环,可能是节点的主要逻辑或者处理程序。:运行节点的事件循环,处理节点订阅的主题、发布的消息和定时器。:关闭 ROS 2,清理资源。

2024-09-11 18:50:01 1202

原创 Field D* 路径规划

式中:y 是s1 到sy 的距离,取决于当前栅格的代价及g(s1)、g(s2)代价之差[5].此时g(s)可由式(4)求解到邻边上的插值点或者端点的最小代价得到,boundary(s)是{s1s→2,s2s→3,s3s→4,s4s→5,s5s→6,s6s→7,s7s→8,s8s→1}邻边上点的集合.。式中:f(s)表示从起点经节点s到目标点路径的代价估计值,g(s)表示当前节点到目标点的实际代价,启发函数h(s)表示当前节点到起始点。:用于估计从当前节点到目标节点的代价。

2024-09-11 11:19:20 872

原创 路径规划 C++ ROS2 (Ⅰ)

等。

2024-09-09 12:56:15 933

原创 点云帧间位姿矩阵的预测和误差计算

其中,Rt和Re分别代表真实旋转矩阵和估计旋转矩阵,tr()表示矩阵的轨迹(即矩阵主对角线上元素之和)。这个公式计算的结果是旋转误差的弧度值,如果需要角度值,可以通过乘以180/π进行转换‌。在计算旋转矩阵的误差时,通常使用的方法是计算旋转角度差。这种方法基于旋转矩阵的性质和数学运算,通过比较真实旋转矩阵和估计旋转矩阵之间的差异来评估旋转误差。计算位姿矩阵的误差通常涉及计算两个位姿之间的差异,可以使用。‌:应该是二范数就可以了。

2024-09-03 19:26:18 513

原创 点云+图像融合3D目标检测的时序方法

包括这两个模块,我们称为BEVFusion4D的框架在3D对象检测方面取得了最先进的结果,在nuScenes验证集上分别有72.0%的mAP和73.5%的NDS,在nuScenes测试集上分别为73.3%的mAP与74.7%的NDS。基于FusionFormer对输入模态表示的灵活适应性,我们提出了一种深度预测分支,可以添加到框架中,以提高基于相机的检测任务中的检测性能。我们在nuScenes数据集上评估了我们的方法,并在3D物体检测任务中实现了72.6%的mAP和75.1%的NDS,优于最先进的方法。

2024-09-01 10:26:59 1369

原创 YOLO-v8和RT-DETR比较

RT-DETR由于轻巧的设计也已经快于大部分YOLO,然后实际端到端应用的时候还是得需要加上NMS的...嗯等等,DETR类检测器压根就不需要NMS,所以一旦端到端使用,RT-DETR依然轻装上阵一路狂奔,而YOLO系列就需要带上NMS负重前行了,NMS参数设置的不好比如为了拉高recall就会严重拖慢YOLO系列端到端的整体速度。⒉.较高的准确率: YOLO V8在YOLO系列的基础上进行了改进,通过引入更多的技术手段,如特征金字塔网络、注意力机制等,提升了检测的准确率。⑥密集目标检测能力;

2024-08-30 22:21:14 1467

原创 Sparse4dv3 论文学习(Ⅱ)方法部分

接上一篇。

2024-08-30 21:47:09 837

原创 Sparse4Dv3 代码学习(Ⅲ)时序多帧推理

上一篇文章介绍了单帧,也就是序列的第一帧的推理过程,这篇文章主要介绍引入历史帧推理时的处理过程。

2024-08-30 17:07:22 668

原创 Sparse4Dv3 代码学习(Ⅰ)模型定义和初始化

里面的anchor_handler是 SparseBox3DKeyPointsGenerator。对应的配置文件:(用的是rasnet50和fpn)加载anchor:(应该是那个npy文件)应该是关于box解码后处理相关的。

2024-08-30 13:44:47 533

原创 Sparse4dv3 论文学习(Ⅰ)摘要引言相关工作

and在自动驾驶感知系统中,3D检测和跟踪是两项基本任务。本文在Sparse4D框架的基础上,对这一领域进行了更深入的研究。我们引入了两个辅助训练任务(时间实例去噪和质量估计),并提出了解耦注意力进行结构改进,从而显著提高了检测性能。此外,我们使用一种在推理过程中分配实例ID的简单方法将检测器扩展为跟踪器,进一步突出了基于查询的算法的优势。在nuScenes基准上进行的广泛实验验证了所提出改进的有效性。

2024-08-30 01:02:31 1174

原创 可变形注意力总结

【代码】可变形注意力总结。

2024-08-29 22:50:37 96

原创 路径规划算法

如果知道每一个点 s b s_b sb​在边界的值,那么仅仅可以通过最小化 c ( s , s b ) + g ( s b ) c(s, s_b)+ g(s_b) c(s,sb​)+g(sb​)计算节点s的最优值, c ( s , s b ) c(s, s_b) c(s,sb​)通过s和sb之间的距离乘以到达s所在单元的代价。公式中的第1项为s→ s x 的代价,第2项为 s x → s y 的代价,第3、4项为y处的代价。c(s, s’)是遍历s和s’之间的边的代价,g(s’)是节点s’的路径代价。

2024-08-29 22:19:49 1287

原创 Sparse4Dv3 代码学习(Ⅱ)单帧推理

06:'norm')第二组(同上)第三组(同上)第四组(同上)第五组(同上)第六组(35:'deformable';四种尺度的特征图,特征通道都是256(从torch.Size([6, 256, 64, 176]) 到 torch.Size([6, 256, 8, 22]))四种尺度的特征图(从torch.Size([6, 256, 64, 176]) 到 torch.Size([6, 2048, 8, 22]))这里的box_3d就是前面的 anchor:torch.Size([1, 900, 11])

2024-08-28 22:39:42 914

原创 经典跟踪算法总结

此外,新的跟踪器会经历一个预热期,在此期间,以积累足够的目标需要与检测相关联的信息,防止错误跟踪。为现有的目标分配检测框时,每个目标的边界框形状是通过预测其在当前帧中的新位置估计的。使用IOU的好处是可以隐式解决目标的短期遮挡问题,也就是当目标被遮挡对象覆盖时,只检测遮挡对象,这样的话,只有遮挡在上面的目标是可以分配到检测框的,而被覆盖目标是不受影响的,因为压根就没有给它分配检测框。随着先进的目标检测器和基于运动的关联算法的成功,除了简单的移动平均模型之外,视觉外观与基于运动的匹配的有效集成仍然相对不足。

2024-08-28 01:46:47 986

原创 Sparse4Dv3 代码复现

打包数据集的元信息和标签,并生成所需的.pkl文件。最后还输出了很多跟踪相关的东西...然后通过K-means生成锚点。编译可变形聚合CUDA算子。安装motmetrics。

2024-08-27 21:01:12 1188

原创 自动驾驶感知面试总结

BEVDet系列算法是鉴智机器人开源的BEV感知算法,基于LSS提出的方法实现从图像空间到BEV空间的视图变换。BEVDet采用结构化的设计思想,整个模型分为4图像视图编码器视图变换器BEV编码器(检测头(Task-specific Head)。

2024-08-21 16:25:45 279

原创 4D毫米波数据集

View-of-Delft(VoD)数据集是一个新的汽车数据集,包含8600帧同步和校准的64层激光雷达、(立体)相机和3+1D雷达数据,这些数据是在复杂的城市交通中采集的。它由123000多个3D边界框注释组成,其中包括26000多个行人、10000个骑自行车的人和26000个汽车标签。

2024-08-21 15:52:20 981

原创 2024 3D目标检测相关论文

值得注意的是,我们的预训练管道在nuScenes验证集上实现了73.2NDS,3D语义分割实现了79.4 mIoU,实现了最先进的比较结果。nerf能够捕获语义和准确的几何形状,逐渐被用于完成不同的感知任务,包括全光分割[23]、目标检测[82,83]、分割[35]和实例分割[103]。已经得到了[1,3,8,69,74,75]的良好发展,并在各种下游任务中显示出了其作为骨干初始化的能力。基于对比的方法,如MoCo [26]和MoCov2 [11],通过区分不同增强样本之间的相似性来学习图像的表示。

2024-08-20 17:31:33 450 1

原创 4D毫米波点云预处理

目标检测是自动驾驶中的一项重要任务。目前,自动驾驶系统的目标检测方法主要基于摄像机和光探测和测距(LiDAR)的信息,这可能会经历的干扰。目前,4-D (x, y, z, v)毫米波雷达可以提供,实现传统毫米波雷达难以完成的三维目标检测任务。现有的三维目标点云检测算法大多基于三维激光雷达;这些方法不一定适用于的毫米波雷达,包括速度信息。本研究提出了一种基于多帧4D毫米波雷达点云的三维目标检测框架。首先,利用毫米波雷达信息,对毫米波雷达点云的相对速度信息进行。

2024-08-20 15:57:14 634

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除