- 博客(529)
- 资源 (77)
- 收藏
- 关注
原创 Bev系列算法总结
Lss Based的算法的发展过程,从多视角融合(BevDet) -> 时序融合的BevDet4D -> 点云深度监督(BevDepth)->MVS(BevStero)->长时序(SoloFusion)->recurrent 时序(VideoBev)从nusense的指标来看,BevDet的mAP是29.8,再到SoloFusin的42.7已经有10几个点的性能提升,一步步发展过来性能提升还是很明显的Video Bev 降低了计算复杂度的同时,还保证了感知性能不会降低。
2024-06-24 00:54:34
489
原创 LATR 算法解读
其中point_query也就是self.point_embedding, 它是利用。经过reshape和permute将tensor大小由。经过forward前向计算得到的。保存到output字典中。进行flatten得到。(4)然后再经过全连接。得到tensor大小为。其中具体损失计算通过。
2024-06-22 09:48:45
469
原创 Bev感知:sparse query
2D to 3D主要以LSS-based方法为主,主要是系列。如下图为例,这种方法一般都会有一个depth估计的网络,还会有一个语义特征提取的分支。利用外积的操作及voxel pooling把提取的image的图像特征拍平到Bev空间上。可以发现它是比较依赖深度估计的准确度的,如果深度估计不准的话,它投到3D空间上会出现位置的偏差,后续Bev Head 基于有偏差的Bev特征,就容易不好refine 回来,容易出现误差累计的问题。
2024-06-18 13:12:50
415
原创 CUDA 编程(1):使用Grid 和 Block分配线程
核函数以线程为单位进行计算的函数,cuda编程会涉及到大量的线程(thread),几千个到几万个thread同时并行计算,所有的thread其实都是在执行同一个核函数。。之所以这么划分,比如将Grid划分为多维的Block,Block划分为多维thread,它其实是为了帮助你快速索引对应的thread。Grid 和Block是逻辑上意义的概念,它并不是在你的GPU硬件上实际存在的。
2024-06-09 16:17:08
299
1
原创 tensorRT 自定义算子plugin的实现
实现一个自定义算子, 对输入的x, 先加一个数r,再乘以simport os自定义算子需要实现2个类,分别是算子的实现类, 以及利用实现类构建的算子类是自定义算子的实现类,通过继承父类的方式实现导出自定义算子。继承该父类后需要用户自己实现forward以及symbolic两个静态方法。forward函数: 定义该算子实现的具体代码,其中第一个参数必须是ctx, 后面的参数是实际自己传入的参数。symbolic方法: 由于是自定义的算子,因此需要定义符号函数symbolic,从而让onnx能识别它。
2024-06-09 12:32:09
486
1
原创 TensorRT 精度debug分析工具
tensorRT还提供了一套可用于engine生成过程中debug的工具,包括Polygraphy和。这些小工具用处很大,值得花时间进一步研究。
2024-06-08 14:25:30
411
原创 tensorRT 实现推理加速(算子合并、量化)
TensorRT是一个高性能的深度学习推断(Inference)的优化器和运行的引擎。TensorRT支持Plugin,对于不支持的层,用户可以通过Plugin来支持自定义创建。TensorRT使用低精度的技术获得相对于FP32二到三倍的加速,用户只需要通过相应的代码来实现。AI大道理公众号。
2024-06-08 13:37:35
314
原创 Bev 车道标注方案及复杂车道线解决
对于U型或环导线这种大曲率的车道线,用基于transformer或者使用maptr 两级query的方法,对学习大曲率的车道线会更容易点(很多量产方案也是这样解决的),用其他的范式基本上很难学习好这种大曲率的车道线,无法表达出这种大曲率的车道线(比如anchor based 或 lane af 算法本身是预定义了规则的,很难学习好这些不规则的车道线)那我们就可以看到被柱子遮挡住的后面的东西。相当于车在开的过程中,被前面的大卡车遮挡了,当前帧是看不见前面的车道线的,当通过前几帧,这段车道线是可以看得见的。
2024-06-04 21:03:20
654
原创 Bev任务issue汇总
在做update的话,需要等异步任务结束后再去做update。将每次backward结果存起来,等所有任异步务结束后,再做update。主干训练完的话,进行冻结,然后针对各个head进行训练。多任务更偏向于算法框架,需要解决:(1)(前), 超过110米其实效果就已经很差了,90米距离效果也比较差。单orin有两个DLA, DLA 通常是放backbone。scale更新的频率和网络参数更新的频率是1:1。的问题,是很难做好的,尤其是。学深度分布depth。lift这种几何投影。不同源的数据是处理的。
2024-06-01 16:14:12
476
原创 BevDet(1): 算法原理介绍介绍
BevDet首先需要做image的特征提取,对应这部分。使用传统的ResNet-50或作为Backbone, 在Neck部分使用FPN或者FPN-LSS(简化版的FPN),对16倍和32倍特征进行融合,最终得到融合后的下采样16倍的特征。输入1690x900的图片经过Image View Encoder得到44x16x256的图像特征。BevDet的View Transformer也是一个比较典型的LSS过程,最终生成一个的Bev特征。
2024-05-29 18:54:41
274
原创 maptr(2):论文及代码解读
Maptr来自于地平线的一篇论文,其中maptr nano可以达到实时的速度,达到25.1FPS,比目前最快的提高了8倍的速度。传统的实时建图采样的是SLAM-based方法,会产生很多问题比如复杂的pipeline和维护成本高。其中HDMapNet算法可以构建, 但它需要大量后处理,是比较耗时的。VectorMapNet把每一个地图的实例都当做一堆点的序列,网络去预测这些点的序列,推理时间会比较慢。为了解决这些问题,maptr通过设计一种DETR范式的端到端来构建(没有后处理,速度快)。创新点。
2024-05-26 23:25:16
335
原创 bevformer详解(3): 逐行代码讲解
在这篇文章中,我们将从BEVFormer算法代码入手,深入探究BEV转换的流程。BEVFormer是一种基于Transformer的BEV转换模型,其核心思想是利用自注意力机制和交叉注意力机制,从,并通过Object Query与BEV特征的交互,完成3D目标检测和地图分割等任务。https://developer.baidu.com/article/details/3224715bevformer的网络结构由三部分组成, 模型结构所示,其中的是部分,对于的是的结构,对于部分,沿用的中的decoder部分,
2024-05-22 19:58:08
959
原创 leetcode刷题(6):二叉树的使用
二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。: 给你一个二叉树的根节点 root , 检查它是否轴对称。: 给定一个二叉树的根节点 root ,返回 它的。:给你二叉树的根节点 root ,返回其节点值的。: 给定一个二叉树 root ,返回其最大深度。观察对称二叉树,查找满足。满足题意的二叉搜索树的。层级大于curr节点。记得将最后一次结果v。
2024-05-15 13:45:00
986
原创 BFS和DFS优先搜索算法
因此,BFS是具有最短路的性质的。在BFS中,可以使用队列来存储待搜索的节点。通过这种方式,BFS可以找到起点到目标节点的最短路径。在实际应用中,BFS还可以用于拓扑排序、连通性检测等问题的解决。在实际应用中,DFS还可以用于拓扑排序、连通性检测等问题的解决。如果分别用DFS 与 BFS 将二叉树的所有结点遍历一遍,那么它们遍历结点的。接下来,让我们先看看在二叉树上进行 BFS 遍历和 DFS 遍历的代码比较。它是一种图遍历算法,它从一个起始点开始,这样,队列中的节点总是按照它们距离起点的距离排序,
2024-05-15 12:57:48
595
原创 python 基础:copy和deepcopy详解
python 的copy 模块提供了copy和deepcopy两个函数来拷贝对象。copy.copy函数用于浅拷贝,而函数用于深拷贝。作为独立新个体单独存在。
2024-05-13 22:29:43
320
1
原创 torch.stack 和torch.cat使用介绍
tensors:待拼接的多个张量,可用list, tuple表示dim:待拼接的维度,默认是0注意:tensors里不同张量对应的待拼接维度的size可以不一致,但是其他维度的size要保持一致。如代码中待拼接维度是0,x和y对应的维度0上的值不一样,但是其他维度上的值(维度1上的值)要保持一致,即都为4,否则会报错。tensors:待拼接的多个张量,可用list, tuple表示dim:待拼接的维度,默认是0注意:tensors里所有张量的维度要保持一致,否则会报错。
2024-05-13 21:54:22
167
原创 bevformer详解(1):论文介绍
3D 视觉感知任务,包括基于多摄像头的3D检测和地图分割对于自动驾驶系统至关重要。本文提出了一种名为BEVFormer的新框架,它通过使用空间和时间的学习统一的BEV表示来支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形式的Bev Query与空间和时间空间交互来提取时间空间信息。为了聚合空间信息,BEVFormer设计空间交叉注意力(spatial cross-attention),每个BEV Query从不同摄像头的感兴趣区域中提取空间特征。对于时间信息。
2024-05-11 23:17:54
164
原创 LSS 讲解(2): 环境配置及训练代码讲解
对于感知算法而言,我认为比较重要的是要了解在Bev视角下,x轴和y轴方向的感知距离,以及Bev网格的大小。CamEncode通过对原始图像逐个图像特征点进行深度和语义的预测,输出视锥特征。, 其中根本bev划分,Z的值为1, 因此final的tensor大小为。论文中指的是规控任务中的轨迹输出,因此不包含在感知任务的讨论范围内。估计深度方向的概率分布,并输出特征图每个位置的语义特征(64维)注意: 生成的锥点,其位置是基于图像坐标系的,同时锥点是。, 我们需要对体素中的所有柱子根据它所在的位置和。
2024-05-11 19:10:39
481
原创 Pytorch基础:torch.expand() 和 torch.repeat()
在torch中,如果要改变某一个tensor的维度,可以利用viewexpandrepeattranspose和permute等方法,这里对这些方法的一些容易混淆的地方做个总结。expand和repeat函数是pytorch中常用于进行张量数据复制和维度扩展的函数,但其工作机制差别很大,本文对这两个函数进行对比。
2024-05-08 21:33:38
823
原创 leetcode刷题(5): STL的使用
整数数组的 下一个排列 是指其整数的下一个字典序更大的排列。更正式地,如果数组的所有排列根据其字典顺序从小到大排列在一个容器中,那么数组的 下一个排列 就是在这个有序容器中排在它后面的那个排列。如果不存在下一个更大的排列,那么这个数组必须重排为字典序最小的排列(即,其元素按升序排列)。若无相交,由于按照起点排序,后面区间的起点更大,也就不可能再有相交的可能。的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间。: 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。
2024-05-08 19:03:23
683
原创 自动驾驶中常见坐标系极其转换
自车坐标系一般指的是以车体后轴中心为原点(因为后轴中心不会随着车摆动而发生相对变化),左前上或右前上的空间坐标系,左(右)一般为横向,前一般为纵向,上指地面以上空间,坐标系随着车运动而运动。相机相对其它坐标系,旋转+平移矩阵,其中旋转外参与上述欧拉角【yaw,patch,roll】,旋转顺序一般为(z-y-x), 单位度;图像坐标系到像素坐标系之间的转换没有旋转变换,没有投影变换,但是坐标原点位置不一致,大小不一致,则设计伸缩变换及平移变换 dx,dy 代表一个像素代表多少米。,单位以“像素”最为常用。
2024-05-08 16:27:32
252
原创 pytorch实现transformer(1): 模型介绍
Transformer 模型是由谷歌在 2017 年提出并首先应用于机器翻译的神经网络模型结构。机器翻译的目标是从源语言(Source Language)转换到目标语言(Target Language)。Transformer 结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。当前几乎全部大语言模型都是基于Transformer 结构,本节以应用于机器翻译的基于 Transformer 的编码器和解码器介绍该模型。Transformer它的提出最开始是针对NLP领域。
2024-05-08 12:48:38
1008
原创 windows 系统中cuda及cuDNN安装
因此≤12.2版本的cuda均可以安装,本文选择安装。,如下图所示,cuda可以安装的最高版本为。进行验证,在powershell里进入,输入。的,需要使用cuda的。
2024-05-07 22:54:39
221
原创 leetcode刷题(4): 动态规划
给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。说明:每次只能向下或者向右移动一步。网格的左上角 (起始点在下图中标记为。机器人试图达到网格的。的路径,使得路径上的。:一个机器人位于一个。
2024-05-04 15:08:51
584
原创 多模态视觉大模型(2): 常用模型介绍(CLIP和LLAVA)
Loss使用的是交叉熵来定义,通过Loss来约束使得相同图像和文本对,他们的距离要足够近;其他不匹配的要尽可能远。我们可以换个视角来解决该问题,将它看做两个任务。第一个任务是针对每张图像我需要分类对,需要将它正确分类为对应的类别id;针对每个文本,我们也希望它也能够正确的分类到对应的类别id。所以可以通过两个交叉熵来实现,一个是文本分类的交叉熵,一个是图像分类的交叉熵,通过转置来实现。然后将两个交叉熵的损失加在一起就可以了,# 主函数# 加载数据集# 获取一个小批量的图像和标签。
2024-04-28 20:00:09
1306
原创 多模态视觉大模型(1):大模型的架构
多模态指的是输入数据的类型,它可以是文本、视频、音频等不同的模态形式,包括各种表格,json,图像以及各种传感器采的数据在深度学习传统模式一般都是采用单模态训练范式,我们针对每一个模态甚至是每个任务,需要用单独的一个模型训练得到,但作为我们人类,对外面世界的感官,其实一直都是使用多个模态的信息,比如我们看视频的时候,我们会看图像,听声音,同时也会经常看字幕,这就包含了图像、音频、文字这三种模态的信息,而且三种模态信息之间互补,比如声音没听明白的地方,结合字幕就能看懂。
2024-04-28 18:08:44
923
原创 huggingface 中模型下载及部署演示
huggingface 可以理解为对于,提供了模型、数据集、类库(比如transformers|peft|accelerate)、教程等。官方地址:ModelsDatasetsCVNLP多模态音频60多万。
2024-04-27 23:39:19
1981
原创 复杂算子onnx导出(4):执行图的构建
前面几节已经介绍如何将带有复杂算子如spconv导出onnx,接下来如何对导出的onnx进行推理。带复杂算子的模型推理,利用已有的推理引擎比如TensorRT, 是无法实现推理的。因此需要自行解析onnx进行单独推理,通过构建相对简单的执行图,即可实现推理,此时就不需要依赖任何其他的推理引擎。
2024-04-23 22:16:15
77
原创 复杂算子onnx导出(3): 将sparseconv导出onnx
为True的话,输入和输出节点的tensor是同一个tensor(出现tensor复用),共享同样的内存地址,此时input和output的id是一样的,前面的博客我们已经介绍过,id复用会导致构建graph出错。比如ReLU中,如果inplace为True的话,input和ouput的id 是一样的。其中 BN可以和spconv的weight、bias进行融合,融合的原理和普通的2d卷积其实是一样的,只不过spconv维度弄的有点复杂。,从而加上了enable_trace标记来保护,避免陷入死循环。
2024-04-23 22:08:06
130
原创 复杂算子onnx导出(2): 将graph写入到onnx
return x可以看出构建是一个带捷径分支的模型,其中一个分支只有一个conv操作,另一个分支包括conv+rulu, 然后将两个分支的输出Add操作,最后降Add得到的结果经过conv输出模型包括3种算子:all_tensors.extend([x, y]) # 避免torch对tensor进行复用return yprint(f"type。
2024-04-23 22:07:12
119
原创 复杂算子onnx导出(1): trace的实现
通过lidar传感器采集的点云数据,它是非常稀疏的, 在分布的空间中只占1% ~5%, 如果使用普通的3D卷积去计算,大部分都是在卷空气,因此提出了使用3D 卷积的方式,只在tensor中有值的位置进行卷积计算,大大提高了卷积的效率,同时将输入输出进行稀疏化存储。稀疏卷积存在两种模式:(1)标准的稀疏卷积(2)subm模式的稀疏卷积标准稀疏卷积:它的计算和普通的卷积计算是一样的,只不过它将输入和输出进行稀疏化存储。通过features。
2024-04-23 22:06:34
170
原创 OpenLane数据及标注介绍
OpenLane是迄今为止第一个真实世界和最大规模的3D车道数据集。OpenLane包含20万帧、超过88万条实例级车道、14个车道类别(单白色虚线、双黄色实体、左/右路边等),以及场景标签和路线邻近目标(CIPO)标注。详见。OpenLane数据集是在自动驾驶领域的主流数据集上构建的。在1.0版本中,在Waymo开放数据集上发布了标注。OpenLane数据集侧重于车道检测和CIPO (OD)。我们注释了每一帧中的所有车道,如果中间没有路边,则包括相反方向的车道。除了车道检测任务,我们还注释:(a)
2024-03-27 21:52:08
206
原创 使用OpenXlab下载数据集(推荐)
进入OpenXlab官方,在下载模型或者数据集前必须先注册账号,然后登入个人账号。(1) 查找要下载的数据(2) 数据详情介绍针对查找到的数据集,提供了:、、以及(3) 数据集下载支持多种下载方式,包括直接在网站上下载,CLI 以及SDK 3种下载方式, 推荐使用SDK下载比较方便。在使用下载时, 需要先获得,包括:和 ,注册的时候就会自动帮忙分配, 然后命令中,通过传入和 对应的值, 就可以进行下载了。方式1:直接下载如下图,在中, 点击右侧的按钮,即可下载对应的数据方式2:CLI命令行下载
2024-03-27 21:16:32
396
原创 语义分割蒸馏1:基于注意力引导的特征蒸馏方法(Attn)
与现有的常用的从教师向学生提取知识的复杂方法相比,所¬提出的方法展示了一种简单而强大的方法的功效,该方法可以利用精细的特征图来转移注意力。所提出的方法已被证明在提取丰富信息方面是有效的,在作为密集预测任务的语义分割方面优于现有方法。所提出的注意力引导特征提取(AttnFD)方法采用卷积块注意力模块(CBAM),该模块通过考虑特定通道和空间信息内容来细化特征图。通过仅使用教师和学生的精细特征图之间的均方误差。
2024-03-27 21:15:07
952
原创 BevFusion (5): BevFusion模型结构和代码详解
论文中给出了Bevfusion的架构图,它的输入是多视角的相机和点云图,经过两个特定的head,分别用于做检测任务和分割任务。图1 Bevfusion 结构图Bevfusion因为有两个模态的输入:多视角相机和点云,所以对应两个分支:相机分支和点云分支。相机分支:输入6个视角的图片后,提取特征,然后经VT(View Transformer)转换之后得到相机的Bev特征。激光雷达分支:输入点云数据,经过Encoder编码得到体素化Lidar特征,然后沿z方向展平,得到Lidar Bev特征。
2024-03-23 18:33:52
704
MIOU涨5.6个点:语义分割知识蒸馏源码
2024-03-20
yolov8 剪枝源码(集成多种剪枝策略)
2024-03-20
yolov8 多任务(目标检测+可行驶区域分割+车道线分割)
2024-01-07
SOTA 跟踪论文:BoTSORT-OCSORT-StrongSORT 等
2023-12-21
yolov8 tracking支持deepocsort、strongsort、bytetrack、botsort等各类跟踪器
2023-12-21
yolov8 知识蒸馏源码
2023-12-18
YOLO 知识蒸馏学习及落地部署(v5和v8)
2023-12-10
yolov8 PTQ和QAT量化源码
2023-12-09
零基础掌握yolov8剪枝
2023-11-26
车道线UFLD-v2落地量化部署代码
2023-11-26
mmsegmentation中文文档
2023-11-26
yolov7 ptq和qat训练及tensorrt部署
2023-09-16
yolov7旋转目标检测完整代码
2023-05-13
yolov8s模型进行剪枝源码
2023-05-13
基于Tensorrt的yolov5 实例分割源码
2023-04-18
各种卷积计算性能对比(Conv,DwConv,GhostConv,PConv,DSConv,DCNV)
2023-03-26
基于yolov5的PTQ和QAT量化完整代码
2023-03-18
图像分割FCN算法的源码及项目实战
2023-02-04
YOLOX原理及无人机检测项目实战源码
2022-11-04
模型轻量化-YOLOv5无损剪枝
2022-10-28
基于yolov5的目标检测和双目测距源码
2022-10-28
pytorch多GPU并行训练教程及源码
2022-10-16
基于yolov5的知识蒸馏实战源码
2022-10-13
makefile从入门到项目编译实战
2022-10-13
图像分类MobileNet系列源代码:v1-v3
2022-07-05
深度学习图像分类花朵数据集
2022-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人