- 博客(843)
- 收藏
- 关注

原创 按关键字搜索自己的CSDN博客
搜索自己博客的功能在谷歌输入关键词,格式如下:<要检索的关键词> site:blog.csdn.net/<博客名>马氏距离 site:blog.csdn.net/djfjkj52
2020-02-28 19:38:15
356
原创 win11暂停更新方法
win11 更新后电脑各种问题,受不了了,换成ubuntu还无法下定决心,估计问题也不不会少。shutdownUpdate.reg文件。
2025-08-22 16:42:12
366
原创 思考:高速场景的行星轮混动效率如何理解
E-CVT(电子无级变速器)是一种专为混合动力汽车设计的动力分配系统,其核心原理是通过行星齿轮组和电机的协同工作,实现动力分流与无级变速。
2025-08-15 18:13:50
745
原创 pdb.set_trace() 是 Python 中通过内置调试器, 可换成ipdb 或 pudb调试
使用是 Python 中通过内置调试器pdb进行代码调试的常用方法。
2025-08-15 14:42:50
373
原创 【蒸馏用损失】用CrossEntropyLoss隐式实现了InfoNCE
【代码】【蒸馏用损失】用CrossEntropyLoss隐式实现了InfoNCE。
2025-08-15 13:34:32
246
原创 【SDR】AM-->DSB-->SSB调制的数学分析和python演示,接收SSB后CW、FT8、WSPR、RTTY模式需要解码
AM的基本原理:标准AM信号包含载波、上边带(USB)和下边带(LSB),带宽为基带信号带宽的两倍,且大部分功率集中在载波上(载波不携带信息),导致调制效率低。AM(幅度调制)的频域表达式揭示了信号在频率域的结构特性,其核心是通过傅里叶变换将时域信号转换为频域表示,从而分析频谱成分和带宽需求。通过解析信号实部与虚部的协同作用,希尔伯特变换将一维实信号扩展至复平面,为信号分析提供了更丰富的维度。,去除直流分量 A0 后即为原始信号 m(t)(如AM广播中的音频信号)) 处的冲激函数,对应直流分量 (
2025-08-14 11:03:28
641
原创 Query通过自注意力机制更新(如Transformer解码器的自回归生成)的理解
今天调试代码发现,streampetr的后,query的梯度消失了。突然意识到,query是通过前向进行的更新,而不是依靠反向传播的梯度计算。一共有六层tranformer,
2025-08-13 20:46:55
683
原创 【蒸馏用损失】compare:KL divergence, contrastive loss,NCEloss,infoNCE,CrossEntropy and MoCo
Relative entropy (相对熵)also calls Kullback–Leibler divergence(KL散度), which can measure the difference between two probability distribution.
2025-07-22 18:00:14
677
原创 【Transformer-BEV编码(18)】The Integration of FPN Outputs with Query in The Transformer Module
fused∑l∈levelswl⋅FlwllFl0.6⋅FP30.4⋅FP5。
2025-07-21 11:11:14
739
原创 用NGC的Docker给Orin刷机DRIVE OS 6.0.10系统笔记
1、进入英伟达,获取dockers镜像地址。插入串口线+typec 线。密码申请 legacy 的API登陆。4、在ubuntu18上面启动镜像。2、登陆自己的 NGC账号。会有串口设备在线即可。
2025-07-02 13:52:43
339
原创 在docker容器中安装docker服务,基于fuse-overlayfs进行overlay挂载,而不是vfs
正常安装docker软件,运行docker时,会提示:No docker socket 服务。
2025-06-27 15:39:31
435
原创 DETR匈牙利匹配bipartite matching loss的思考:未匹配的预测框仅计算分类损失
关于DETR中的流程图DETR最后一张图片,真值有2个bounding box(框,简称:bbox),DETR中会固定预测出100个bbox框(预测的结果包含框的位置、大小以及框中目标具体类别)。推理时相对简单:100个bbox集合在推理阶段通过0.7的阈值进行区分。大于阈值认为是前景图,也就是那几只海鸟,小于阈值bbox是no object 背景图。训练时的计算比较复杂,设计到匹配问题,真值有2个bbox,但是预测了100个bbox,怎样建模和计算这100个bbox和真值的loss?
2025-06-16 11:04:08
1049
翻译 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 是 FlashAttention 的论文
由于自注意力机制的时间和内存复杂度是序列长度的二次方,Transformer 在长序列上速度慢且占用大量内存。近似注意力机制试图通过牺牲模型质量来降低计算复杂度,以此解决这个问题,但通常无法实现快速加速。我们认为,目前缺少一个原则,即让注意力机制算法具备 IO 感知能力——即考虑 GPU 内存不同层级之间的读写操作。我们提出了 FlashAttention,这是一种 IO 感知的精确注意力机制,它使用平铺技术来减少 GPU 高带宽内存 (HBM) 和 GPU 片上 SRAM 之间的内存读写次数。
2025-05-30 11:33:22
94
原创 低秩矩阵、奇异值矩阵和正交矩阵
低秩矩阵(Low-rank Matrix)是指秩(rank)远小于其行数和列数的矩阵,即 rank(M)=r≪min(m,n)rank(M) = r \ll \min(m,n)rank(M)=r≪min(m,n)。其核心特点是信息冗余性,可通过少量独立基向量(奇异向量)近似表示整个矩阵,从而在数据压缩、去噪和补全等任务中发挥重要作用。矩阵乘法是大多数机器学习模型的核心计算瓶颈。为了降低计算复杂度,已经出现了许多方法对一组更高效的矩阵进行学习。这些矩阵被称为结构化矩阵,其参数数量和运行时间为次二次函数(对于
2025-05-30 11:14:29
1045
原创 FlashAttention(flash_attn) 的高效注意力机制实现库学习,与 torch.nn.MultiheadAttention 在数学上是完全相同
是 FlashAttention 的开山之作(即 FlashAttention V1 的论文),由 Tri Dao 等人于 2022 年 5 月 27 日提交至 arXiv,并发表在 NeurIPS 2022 会议上。FlashAttention是当前大模型开发中的关键技术,尤其适合需要高效处理长序列的场景。:通过分块递归计算(如 Online Softmax)和核融合(Kernel Fusion),避免实例化中间矩阵,显存占用降至。在数学上是完全相同的,两者的差异仅在于实现方式和计算效率,而非输出结果。
2025-05-30 10:19:24
959
原创 torch.nn.MultiheadAttention的代码逐行研究
文档:https://docs.pytorch.org/docs/stable/generated/torch.nn.MultiheadAttention.html代码:https://github.com/pytorch/pytorch/blob/v2.7.0/torch/nn/modules/activation.py#L973具体执行的function:https://github.com/pytorch/pytorch/blob/main/torch/nn/functional.py#L6213
2025-05-29 18:57:31
912
翻译 【Head-DETR系列(10)】Sparse DETR: efficient end-to-end object detection with learnable sparsity
DAM是通过聚合解码器中所有对象查询(object queries)对编码器输出令牌(tokens)的交叉注意力权重生成的。
2025-05-27 13:42:39
110
翻译 【去噪训练(2)】Dino: DETR with improved denoising anchor boxes for end-to-end object detection
Compare with DN-DETR去噪机制的核心差异DN-DETR聚焦于稳定二分图匹配,通过引入辅助去噪任务(将带噪声的真实框输入解码器直接重建原始框),绕过匈牙利匹配的不稳定性,加速早期训练收敛。其去噪组仅作为训练阶段的辅助分支,推理时移除。技术实现:对真实框的坐标(x,y,w,h)和类别标签添加均匀噪声,强制模型学习重建原始目标。贡献:首次将去噪思想引入检测任务,解决匹配不稳定性导致的收敛慢问题。DINO在DN-DETR基础上进一步优化,提出。
2025-05-26 19:46:54
224
翻译 【DETR蒸馏】OD-DETR: Online Distillation for Stabilizing Training of Detection Transformer
DETR 存在训练动态不稳定的问题。与基于 CNN 的检测器相比,它需要消耗更多数据和训练周期才能收敛。本文旨在通过在线蒸馏技术来稳定DETR 训练。它利用一个由指数移动平均 (EMA) 积累的教师模型,并从以下三个方面将其知识蒸馏到在线模型中。首先,教师模型中目标查询与真实值 (GT) 框之间的匹配关系被用来指导学生模型,因此学生模型中的查询不仅根据自身的预测分配标签,还会参考教师模型的匹配结果。其次,教师模型的初始查询被提供给在线学生模型,其预测直接受到教师模型相应输出的约束。最后,来。
2025-05-23 18:35:09
108
翻译 【蒸馏DETR】Distilling Knowledge from Large-Scale Image Models for Object Detection
近年来,大规模图像模型取得了长足进步,突破了目标检测等许多视觉任务的界限。考虑到在很多场景下部署大型模型由于计算开销高昂并不切实际,本文提出了一种新的知识蒸馏方法,从大规模图像模型中蒸馏知识用于目标检测(称为 DLIM-Det)。为此,我们做了以下两项工作:(1)为了弥合教师和学生之间的差距,我们提出了一种冻结教师方法。具体来说,为了通过在特定任务上微调大型模型来创建教师模型,我们冻结了预先训练好的主干模型,只优化任务头。这既保留了大型模型的泛化能力,又赋予教师模型独特的特性。
2025-05-23 18:03:13
169
翻译 【DETR蒸馏】D3ETR: Decoder Distillation for Detection Transformer
基于 DETR 的检测器的基准和方案尚待构建。本文聚焦于基于 DETR 的检测器的 Transformer 解码器,并探索其知识蒸馏方法。Transformer 解码器的输出顺序随机,这使得教师和学生的预测之间没有直接对应关系,从而对知识蒸馏提出了挑战。为此,我们提出了 MixMatcher 来对齐基于 DETR 的教师和学生的解码器输出,它混合了两种师生匹配策略,即自适应匹配和固定匹配。具体而言,自适应匹配采用二分匹配,在每个解码器层自适应地匹配教师和学生的输出;
2025-05-23 17:24:18
95
翻译 【DETR蒸馏】CVPR:KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillat
论文:KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling地址:https://arxiv.org/pdf/2211.08071。
2025-05-23 11:01:39
189
原创 角度回归——八参数检测四边形RSDet
遥感目标检测 RSDet 是四边形检测器,而且都考虑到了顺序标签点(sequential label points)的问题。我们首先介绍两种主流的边界框参数化协议,即五参数模型和八参数模型。然后,我们正式识别了五参数系统中旋转角度的不连续性及其导致的宽高突变。此外,我们定量地展示了五参数系统中由不同测量单位引起的回归不一致性带来的负面影响。我们将这些问题统称为旋转敏感误差 ( Rotation Sensitivity Error,RSE),并提出了一种针对五参数系统的调制旋转损失函数,以实现更平滑的学习。
2025-05-22 16:25:30
1094
原创 角度回归——八参数检测四边形Gliding Vertex
遥感目标检测Gliding Vertex 是四边形检测器,而且都考虑到了顺序标签点(sequential label points)的问题。首先我们要了解一下为什么在做四边形检测前要对四个角点进行排序。举一个简单的例子,如果一个四边形的ground-truth是(x1,y1,x2,y2,x3,y3,x4,y4)并且所有的ground-truth并不是按一定规则顺序标注的,那么检测器有可能给出的预测结果是(x2,y2,x3,y3,x4,y4,x1,y1)。
2025-05-22 15:49:09
889
翻译 【DETR蒸馏】ICCV2023:DETRDistill:A Universal Knowledge Distillation Framework for DETR-families
论文:DETRDistill: A Universal Knowledge Distillation Framework for DETR-familiesICCV2023代码:https://github.com/BIVLab-USTC/DETRDistill。
2025-05-21 17:04:36
180
原创 【Transformer-BEV编码(13)】稀疏PETR——streamPETR:Exploring Object-Centric Temporal Modeling for Effici和代码分析
本文提出了一个用于多视角3D目标检测的长序列建模框架StreamPETR。基于PETR系列的稀疏查询设计,我们系统地开发了一种以目标为中心的时间机制。该模型以在线方式运行,长期历史信息通过逐帧的目标查询进行传播。此外,我们引入了运动感知层归一化来建模目标的运动。与单帧基准相比,StreamPETR在几乎可以忽略不计的计算成本下实现了显著的性能提升。在标准nuScenes基准测试中,它是第一个能够与基于激光雷达的方法达到相当性能(67.6% NDS和65.3% AMOTA)的在线多视角方法。
2025-05-19 20:11:59
849
翻译 【端到端(2)】ICLR 2025SSR:Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving
端到端自动驾驶 (E2EAD) 方法通常依赖于监督感知任务来提取明确的场景信息(例如,物体、地图)。这种依赖需要昂贵的注释,并限制了实时应用中的部署和数据可扩展性。本文介绍了 SSR,这是一个新颖的框架,它仅使用 16 个导航引导标记作为稀疏场景表示,从而有效地提取了 E2EAD 的关键场景信息。我们的方法无需人工设计的监督子任务,从而使计算资源能够集中在与导航意图直接相关的重要元素上。我们还引入了一个时间增强模块,通过自监督将预测的未来场景与实际的未来场景对齐。
2025-05-15 16:05:02
159
转载 感知工程师的规划速成课
作为自动驾驶车辆的“头脑”,规划系统对于车辆的安全和高效驾驶至关重要。规划系统的目标是生成一条安全、舒适、高效的行驶轨迹。换句话说,安全性、舒适性和效率是规划的三个关键目标。为了给规划系统提供输入,系统需要所有感知输出,包括静态的道路结构、动态的道路参与者、占用网生成的占用空间(occupancy network)以及交通等待情况等。规划系统还必须通过监控加速度(acceleration)和加加速度(jerk)来确保车辆的舒适性,从而生成平滑的轨迹,同时考虑与其他交通参与者的互动和礼让。
2025-05-15 11:34:14
233
2
翻译 【去噪训练(2)】ECCV 2022:A Fast Knowledge Distillation Framework for Visual Recognition
本文提出了一种快速知识蒸馏(FKD)框架,旨在解决传统知识蒸馏(KD)方法中因教师网络转发导致的计算开销大、效率低的问题。FKD通过模拟蒸馏训练阶段并生成多裁剪图像的软标签,避免了RoI对齐和softmax操作,从而显著提高了训练速度。实验结果表明,FKD在ImageNet-1K数据集上使用ResNet-50实现了80.1%的准确率,比ReLabel高出1.2%,同时训练速度更快。此外,FKD在自监督学习任务中也表现出色,展示了其在多种视觉任务中的广泛适用性和高效性。
2025-05-15 11:10:02
63
翻译 【去噪训练(1)】DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
本文提出了一种新颖的去噪训练方法,以加速 DETR(检测变换器)的训练,并加深了对 DETR 类方法收敛速度慢问题的理解。我们指出,收敛速度慢是由于二分图匹配的不稳定性导致训练初期优化目标不一致所致。为了解决这个问题,除了匈牙利损失函数外,我们的方法还额外将带有噪声的 GT 边界框输入到 Transformer 解码器中,并训练模型重建原始边界框,从而有效降低了二分图匹配难度并加快了收敛速度。我们的方法具有通用性,只需添加数十行代码即可轻松插入到任何 DETR 类方法中,并实现显著的改进。
2025-05-08 15:05:23
155
原创 【蒸馏(5)】DistillBEV代码分析
特征对齐在检测中需结合类别平衡策略,直接应用会因背景主导而失效,这一结论已被大量实验验证。这种现象在三维物体检测中更加严重,因为绝大多数三维空间都是空的。我们对BEV特征图的统计发现,平均不到30%的像素是非空的,其中只有一小部分包含我们感兴趣的物体。为了进行有效的知识转移,我们引入了区域分解来引导学生关注关键区域,而不是平等对待所有区域。具体来说,我们将特征图分为四种类型:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。据此,我们定义一个区域分解掩码M:
2025-04-28 19:44:56
1168
翻译 【激光雷达3D(3)】MVX-Net: Multimodal VoxelNet for 3D Object Detection mvxnet和mmdet的源码学习mvxnet
近期许多关于 3D 物体检测的研究都致力于设计能够处理点云数据的神经网络架构。虽然这些方法表现出令人鼓舞的性能,但它们通常基于单一模态,无法利用来自其他模态(例如相机)的信息。尽管一些方法融合了来自不同模态的数据,但这些方法要么使用复杂的流水线按顺序处理模态,要么执行后期融合,无法在早期学习不同模态之间的交互。在本文中,我们提出了 PointFusion 和 VoxelFusion:两种简单而有效的早期融合方法,利用最近推出的 VoxelNet 架构将 RGB 和点云模态融合在一起。
2025-04-27 17:26:50
194
1
翻译 【数据增强(1)】CVPR2019: Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection
本报告介绍了我们的方法,该方法赢得了自动驾驶研讨会 (WAD, CVPR 2019) 上举办的 nuScenes 3D 检测挑战赛 [17]。通常,我们利用稀疏 3D 卷积提取丰富的语义特征,然后将其输入到类平衡的多头网络中执行 3D 物体检测。为了解决自动驾驶场景中固有的严重类别不平衡问题,我们设计了一种类平衡的采样和增强策略,以生成更均衡的数据分布。此外,我们提出了一个平衡的分组头来提升具有相似形状的类别的性能。
2025-04-27 16:03:25
104
原创 【激光雷达3D(6)】3D点云目标检测方法;CenterPoint、PV-RCNN和M3DETR的骨干网络选择存在差异
方法骨干网络核心特点灵活适配,检测头与骨干解耦PV-RCNN两阶段融合体素与点特征M3DETRVoxelNet 或 PointNet++Transformer解码器主导结论CenterPoint强调骨干灵活性,PV-RCNN侧重多特征融合,M3DETR则通过Transformer增强全局建模。基于体素的方法(VoxelNet、SECOND)必须使用3D卷积。基于点的方法(PointNet++)和部分混合方法(PointPillars)避免3D卷积,转而采用更高效的操作。
2025-04-24 16:15:25
1071
原创 【激光雷达3D(7)】CenterPoint两阶段细化仅使用BEV特征;PV-RCNN两阶段细化使用体素特征;M3DETRTransformer统一多表征特征
通过Transformer同时处理多尺度、多表征(原始点云、体素、BEV)的特征,直接输出检测结果,无需显式的区域提议(Region Proposal)阶段。:类似DETR,使用可学习的查询(Query)与编码器特征交互,通过解码器直接预测边界框,省略了RoI特征提取步骤。,实验中也对比了融合体素特征的方法(如Voxel-Set Abstraction和RBF插值)。M3DETR通过Transformer实现端到端检测,无需显式两阶段设计。:在小目标和遮挡场景中表现突出,但训练复杂度高。
2025-04-24 16:14:59
631
翻译 【激光雷达3D(5)】Multimodal Virtual Point 3D Detection
基于激光雷达的传感技术驱动着当今的自动驾驶汽车。尽管激光雷达技术发展迅速,但目前的激光雷达传感器在分辨率和成本方面仍比传统彩色摄像头落后二十年。对于自动驾驶而言,这意味着靠近传感器的大型物体很容易被看到,但远处或较小的物体仅占一到两个测量值。这是一个问题,尤其是在这些物体最终成为驾驶危险因素时。另一方面,这些物体在车载 RGB 传感器中清晰可见。本文提出了一种将 RGB 传感器无缝融合到基于激光雷达的 3D 识别中的方法。
2025-04-24 16:03:07
121
原创 PyTorch 中一个常见但容易踩坑的知识点:多进程的 pickle 流程
pickle是 Python 的一种序列化机制,它能把一个 Python 对象转换成二进制数据,然后传给另一个进程使用。举个例子:import pickleb = pickle.dumps(x) # 把对象 x 转成二进制x2 = pickle.loads(b) # 把二进制还原成原来的对象PyTorch 用多进程加载数据时,会自动使用pickle来序列化你的Dataset对象传给子进程。如果 Dataset 中有不能被pickle的对象(比如.keys()返回的视图),就会报错。
2025-04-21 14:41:55
599
翻译 【运动预测(1)】CVPR2021:mmTransformer:Multimodal Motion Prediction with Stacked Transformers
预测附近车辆未来多条合理轨迹对于自动驾驶安全至关重要。近期的运动预测方法试图通过隐式正则化特征或显式生成多个候选候选区域来实现这种多模态运动预测。然而,这仍然具有挑战性,因为潜在特征可能集中在数据中最频繁出现的模式上,而基于候选区域的方法在很大程度上依赖于先验知识来生成和选择候选区域。在本研究中,我们提出了一种用于多模态运动预测的新型Transformer框架,称为mmTransformer。我们设计了一种基于堆叠Transformer的新型网络架构,利用一组固定的独立候选区域在特征级别对多模态进行建模。
2025-04-15 18:22:26
122
翻译把STL容器放入共享内存
2024-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人