深度学习
文章平均质量分 92
敢敢のwings
一位立志成为机器人攻城狮的自动驾驶从业人员,著有《从ROS1到ROS2无人机编程实战指南》一书。目前是阿里云专家博主、华为云享专家、古月居优秀创作者、古月居签约作者、CSDN博客专家。主要专注机器人运动学、定位感知算法、深度学习研究等,平时涉猎较广。希望未来可以努力学习并胜任系统架构师!
展开
-
记录深度学习量化操作
深度学习中做量化提升运行速度是最常用的方法,尤其是大模型这类非常吃GPU显存的方法。一般是高精度浮点数表示的网络权值以及激活值用低精度(例如8比特定点)来近似表示达到模型轻量化,加速深度学习模型推理,目前8比特推理已经比较成熟。比如int8量化,就是让原来32bit存储的数字映射到8bit存储。int8范围是[-128,127], uint8范围是[0,255]。原创 2024-09-09 22:26:59 · 1072 阅读 · 0 评论 -
MapTR调试记录
最近在研究maptr,因为代码实在复杂,不记录一下很容易就忘记,因此来开个坑写一写自己的研究历程。经过上面的步骤,基本疏通了maptr的训练步骤,但是里面存在许多细节,由于还在看源码,以及有一些问题还没解决,后续的详解版本会对代码里面的变量进行详细注解(已经在写了,如果没啥问题的话),维度以及作用,一方面是加深对maptr的理解,另一方面提高自己对mmlab类模型的认知。本文转自defaultv43,如有侵权,请联系删除。转载 2024-08-21 17:29:45 · 52 阅读 · 0 评论 -
TensorRT:onnx parser与onnx-graphsurgeon的解析与实践
欢迎阅读本篇博客《TensorRT:onnx parser与onnx-graphsurgeon的解析与实践》!在如今深度学习领域的快速发展中,模型的部署和优化变得越来越重要。TensorRT作为一种高性能推理引擎,为我们提供了优化和加速深度学习模型的能力。而在TensorRT中,和则是两个强大的工具,能够帮助我们更好地解析和优化ONNX模型。本博客将分为三个章节进行介绍。首先,我们将深入探讨,它是TensorRT中用于解析ONNX格式模型的重要组件。我们将详细介绍ONNX parser的原理和使用方法,帮助转载 2024-08-19 20:33:07 · 2785 阅读 · 0 评论 -
从BEVDET来学习如何生成trt以及如何去写这些C++内容
对于深度学习而言,通过模型加速来嵌入进C++是非常有意义的,因为本身训练出来的文件其实效率比较低下,所以这里我们将以BEVDET作为例子,来向读者展示如何去生成trt,并完善engine加速。这里最近受到优刻得的使用邀请,正好解决了我在大模型和自动驾驶行业对GPU的使用需求。UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.08元,月卡只需要1.36元每小时,并附带200G的免费磁盘空间。暂时已经满足我的使用需求了,同时支持访问加速,独立IP等原创 2024-08-09 19:53:54 · 6575 阅读 · 0 评论 -
经典文献阅读之--BLOS-BEV(打破感知边界,检测距离达200米)
鸟瞰图表示(Bird’s-eye-view, BEV)对于自动驾驶中的感知任务尤为重要。平衡BEV表示的准确性、效率和范围是非常困难的。现有的工作通常将感知范围限制在50米以内。扩展BEV表示的范围可以通过提供更全面的信息和反应时间,大大有利于下游任务,如拓扑推理、场景理解和规划。标准定义(SD)导航地图可以提供道路结构拓扑的轻量级表示,具有获取方便和维护成本低的特点。为了充分利用SD地图信息,作者将车载摄像头的近距离视觉信息与SD地图的视线外(BLOS)环境先验结合,以实现扩展的感知能力。转载 2024-08-01 10:57:20 · 4191 阅读 · 0 评论 -
经典文献阅读之--Detecting Road Obstacles by Erasing Them(通过消除法检测道路障碍物)
车辆在道路上可能会遇到无数的障碍物,而且事先记录下它们以训练一个检测器是不可能的。相反,我们选择图像块,并使用周围的道路纹理进行填充,这倾向于从这些块中移除障碍物。然后,我们使用一个训练有素的网络来识别原始块和填充后的块之间的差异,这标志着擦除了一个障碍物。》解决了这个问题,并在上有对应的工作链接。转载 2024-07-29 18:10:25 · 3517 阅读 · 0 评论 -
从代码层面熟悉UniAD,开始学习了解端到端整体架构
最近端到端已经是越来越火了,以为代表的很多工作不断地在不断刷新端到端的指标,比如最近又重新刷新了所有任务的指标。在端到端火热起来之前,成熟的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,从而导致模块间信息丢失和错误累积。相比之下,端到端范式将多任务统一到一个完全可微分的框架中,从而允许以规划为导向进行优化。当然对于刚刚开始熟悉这一行的人来说,最简单也最值得接触的就是UniAD这各项目,这里最近受到优刻得的使用邀请,正好解决了我在大模型和自动驾驶行业对GPU的使用需求。原创 2024-07-25 18:10:33 · 1484 阅读 · 4 评论 -
论文阅读《MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction》
高精地图提供了丰富而精确的驾驶场景静态环境信息,是自动驾驶系统规划的基础和不可或缺的组成部分。在本文中,我们提出了Map TRansformer,一个用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的等效置换建模方法,即将地图元素建模为具有一组等效置换的点集,从而准确地描述了地图元素的形状并稳定了学习过程。我们设计了一种分层查询嵌入方案,对结构化地图信息进行灵活编码,并对地图元素进行分层二部匹配学习。为了加快收敛速度,我们进一步引入了辅助的一对多匹配和稠密监督。转载 2024-07-25 14:35:07 · 124 阅读 · 0 评论 -
经典文献阅读之--Segment Anything Model for Road Network Graph Extraction(基于遥感影像中提取向量化的道路网络)
虽然轻地图这套方案已经被业内广泛接受并使用,但是我们发现,对于地图的依赖仍然不可或缺,只是从HD(高精地图)降到了车道级地图(LD Map)乃至标准地图(SD Map)。所以说,我们如果高效的去获取向量化的道路还是非常关键的。》一文。这是对 Segment Anything Model (SAM) [29] 的一种改进,用于从卫星图像中提取大规模、矢量化的道路网络图。为了预测图形几何结构,我们将其形式化为一个密集语义分割任务,利用了 SAM 的固有优势。原创 2024-07-25 10:35:50 · 5599 阅读 · 0 评论 -
认识3D Gaussian Splatting以及如何和ROS结合完成实时建图
我们所知道的是高斯溅射需要预训练,然后才能完成比较好的建图,这里提出的要求就是如何预训练出比较好的参数,然后再将关键帧对应的位置作为输入,并完成3D环境的重建。这里是一个使用VINS作为输入的整体流程。高斯模型的初始化,初始化过程中加载或定义了各种相关的属性使用的球谐阶数、最大球谐阶数、各种张量(_xyz等)、优化器和其他参数。self.active_sh_degree = 0 #球谐阶数self.max_sh_degree = sh_degree #最大球谐阶数# 存储不同信息的张量(tensor)原创 2024-07-25 10:35:38 · 6022 阅读 · 1 评论 -
经典文献阅读之--How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey (NeRFs和3D高斯溅射技术如何重塑SLAM:综述
在过去的二十年中,同时定位与地图构建(SLAM)领域的研究经历了显著的演变,凸显了其在实现未知环境自主探索方面的关键作用。这一演变涵盖了从手工方法,通过深度学习时代,再到最近聚焦于神经辐射场(NeRFs)和3D高斯点(3DGS)表示的最新发展。鉴于这一领域日益增长的研究和缺乏综合性的综述,本文旨在通过最新辐射场技术的发展视角,提供SLAM进展的首个全面概述。本文阐述了SLAM的背景、进化路径、固有优势和局限性,并作为一份基础性参考,突出了该领域的动态进展和具体挑战。图1:SLAM演变时间轴。原创 2024-07-25 10:35:15 · 5916 阅读 · 0 评论 -
经典文献阅读之--GraphAD(端到端自动驾驶的交互场景图)
对自车、道路参与者和地图元素之间复杂交互的建模一直是确保安全的自动驾驶的关键部分。之前关于端到端自动驾驶的研究依赖于注意力机制来处理异构交互,但这种方法未能捕捉几何先验,并且计算量巨大。在《》中,我们提出了交互场景图(ISG)作为一种统一的方法来建模自车、道路参与者和地图元素之间的交互。通过ISG的表示,驾驶代理可以从最具影响力的元素中聚合关键信息,包括潜在碰撞的道路参与者和需要遵循的地图元素。由于省略了大量不必要的交互,更高效的基于场景图的框架能够专注于不可或缺的连接,从而带来更好的性能。原创 2024-07-25 10:34:34 · 5720 阅读 · 0 评论 -
一文梳理自监督学习以及最火的端到端自动驾驶
特斯拉的FSD带火了自监督学习,而GPT这类大模型也使用了自监督学习的理念。众所周知,监督学习的成本过于高昂,尤其在任务复杂时,典型的就是FSD这样的系统。特斯拉收集的训练数据已经超出4亿公里,这些数据如果没有“自动标注系统”的帮助,根本无法用于训练。原创 2024-07-25 10:34:14 · 5270 阅读 · 0 评论 -
经典文献阅读之--Diffusion Model-Based Image Editing: A Survey(基于扩散模型的图像编辑)
去噪扩散模型已经成为各类图像生成和编辑任务的强大工具,这种方法无论是在无需先验输入条件下还是在基于输入的条件下,都能够高效地合成视觉内容。这一技术的核心理念在于,通过学习逆向操作——即逐步为图像添加噪声的过程,从而使其能够从复杂的分布中生成高质量的样本。在本次综述《》中,我们全面回顾了利用扩散模型进行图像编辑的现有技术,详细探讨了该领域内的理论与实践方面。我们从多个维度对这些方法进行了详尽的分析和分类,涉及学习策略、用户输入条件,以及能够实现的特定编辑任务等方面。原创 2024-07-25 10:33:58 · 5739 阅读 · 0 评论 -
基于BEVDET剖析MMDet3D框架
MMDet3D 官方文档MMDet3D官方仓库MMDet3D支持**_SUN RGB-D_**,_ScanNet__nuScenes_, **_Lyft_和_KITTI_**共5个主流数据集。对于上述数据集之外的公开数据集或者自定义数据集,可以通过继承 Custom3DDataset 来实现新的数据集类,并重载相关的方法,如 BEVDETNuScenesDataset数据集所示,该文件位于/mmdet3d/datasets/bevdet_nuscenes_dataset.py。转载 2024-07-24 13:17:33 · 75 阅读 · 0 评论 -
经典文献阅读之--World Models for Autonomous Driving(自动驾驶的世界模型:综述)
在自动驾驶的快速发展领域中,准确预测未来事件及评估其含义的能力对于安全性和效率至关重要,这对决策过程至关重要。世界模型作为一种变革性方法出现,使自动驾驶系统能够合成和解释大量传感器数据,从而预测潜在的未来场景并弥补信息缺口。》提供了对自动驾驶中世界模型当前状态和未来进展的初步回顾,涵盖了它们的理论基础、实际应用以及旨在克服现有限制的持续研究努力。突出了世界模型在推进自动驾驶技术中的重要作用,本调查旨在为研究社区提供一个基础参考,便于迅速获取和理解这一新兴领域,并激发持续的创新和探索。原创 2024-07-24 11:40:47 · 5936 阅读 · 0 评论 -
经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)
本文介绍了DriveVLM:自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景,例如具有挑战性的路况和微妙的人类行为。为此,本文引入了DriveVLM,这是一种利用视觉语言模型(VLMs)增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链(CoT)模块的独特组合。原创 2024-07-13 14:01:41 · 6698 阅读 · 0 评论 -
经典文献阅读之--Self-Supervised Bird’s Eye View Motion,,(基于跨模态信号的自监督鸟瞰图运动预测)
本文介绍了基于跨模态信号的自监督鸟瞰图运动预测。以自监督的方式学习密集鸟瞰图(BEV)运动流是机器人和自动驾驶的一项新兴研究。目前的自监督方法主要依赖于点云之间的点对应关系,这可能会引入假的运动流和不一致的问题,阻碍了模型学习准确且现实的运动的能力。在本文中,我们引入一种新型的跨模态自监督训练框架,该框架通过利用多模态数据来获得监督信号,有效地解决了这些问题。》一文设计了三种创新的监督信号来保留场景运动的固有性质,包括masked倒角距离损失、分段刚性损失和时间一致性损失。相关代码可以在Github中找到。原创 2024-07-11 14:03:22 · 6781 阅读 · 0 评论 -
经典文献阅读之--DEviLOG(使用合成数据和真实世界数据的数据驱动占用网格映射基于Transformer的BEV方案量产方案)
在自动驾驶汽车(AV)的感知任务中,数据驱动的方法往往优于传统方法。这促使我们开发了一种基于数据的方法来从激光雷达测量中计算占用网格地图(OGM)。我们的方法扩展了之前的工作,使得估计的环境表示现在包含一个额外的层,用于标记被动态物体占据的单元格。早期的解决方案只能区分自由和占用的单元格。障碍物是否可以移动的信息对于规划AV的行为非常重要。》提出了两种生成训练数据的方法。一种方法扩展了我们以前关于使用合成训练数据的工作,以便生成具有上述三种单元状态的OGM。原创 2024-07-11 14:01:56 · 6435 阅读 · 0 评论 -
经典文献阅读之--WidthFormer(基于Transformer的BEV方案量产方案)
提出了WidthFormer,这是一种基于Transformer的新颖鸟瞰视角(Bird’s-Eye-View, BEV)三维检测方法,专为实时自动驾驶应用而设计。WidthFormer在计算上高效、稳健,且无需特殊的工程努力即可部署。我们提出了一种新颖的三维位置编码机制,能够准确地封装三维几何信息,使得我们的模型仅通过一个Transformer解码层就能生成高质量的BEV表示。这种机制对现有的稀疏三维对象检测器也是有益的。受到最近提出的工作的启发,我们进一步通过垂直压缩图像特征。原创 2024-07-03 10:25:03 · 7640 阅读 · 0 评论 -
经典文献阅读之--MobileViT(轻量级、通用且移动友好的网络框架)
轻量级卷积神经网络(CNNs)已成为移动视觉任务的标准选择。它们的空间归纳偏置使得它们能在各种视觉任务中通过较少的参数学习表示。然而,这些网络在空间上具有局部性。为了学习全局性表示,人们开始采用基于自注意力机制的视觉Transformer(ViTs)。不同于CNNs,ViTs模型较大。在《》文中,我们探讨了这样一个问题:是否可以结合CNNs和ViTs的优点,为移动视觉任务构建一个轻量级且延迟低的网络?为此,我们介绍了MobileViT,一种适用于移动设备的轻量级和通用视觉Transformer。原创 2024-06-26 16:54:13 · 8942 阅读 · 0 评论 -
经典文献阅读之--SMERF(通过标清导航地图增强车道感知和拓扑理解)
传统的自动驾驶严重依赖于成本高昂、劳动繁重的高精(HD)地图,这阻碍了其可扩展性。相比之下,标清(SD)地图成本较低,并且覆盖全球范围,从而提供了一种可扩展的替代方案。在《》中,我们系统性地探索了标清地图对实时车道拓扑理解的影响。本文提出了一种新型的框架来将标清地图集成到在线地图预测中,并且提出了一种基于Transformer的编码器(即来自Transformers的标清地图编码器表示),其利用标清地图中的先验来执行车道拓扑预测任务。这种。原创 2024-05-29 08:47:58 · 12661 阅读 · 0 评论 -
经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)
在这项工作中,我们将。原创 2024-05-14 18:19:48 · 14785 阅读 · 0 评论 -
经典文献阅读之--EarlyBird(用于BEV中多视图跟踪的早期融合)
多视角聚合技术有望克服。最近的多视角检测和三维物体检测方法通过将所有视角投影到地面平面上,并在鸟瞰图中进行检测,取得了巨大的性能提升。》研究了在**鸟瞰图中进行跟踪是否也能在多目标多摄像头跟踪中带来下一次性能突破。**目前大多数多视角跟踪方法在每个视角上执行检测和跟踪任务,并使用基于图的方法在每个视角上进行行人关联。这种空间关联已经通过在鸟瞰图中检测每个行人一次来解决,只剩下时间关联的问题。对于时间关联,我们展示了如何为每个检测学习强大的重新识别(re-ID)特征。当前代码也已经在上开源了。原创 2024-04-29 14:41:08 · 16113 阅读 · 0 评论 -
经典文献阅读之--A Survey on Generative Diffusion Models(扩散模型最新综述)
本文综述了深度生成模型,特别是扩散模型(Diffusion model),如何赋予机器类似人类的想象力。扩散模型在生成逼真样本方面显示出巨大潜力,克服了变分自编码器中的后分布对齐障碍,缓解了生成对抗网络中的对抗性目标不稳定性。扩散模型包括两个相互连接的过程:一个将和一个。前向过程类似于具有时变系数的简单布朗运动。神经网络通过使用去噪评分匹配目标来训练估计得分函数。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。原创 2024-04-16 12:55:15 · 16734 阅读 · 0 评论 -
经典文献阅读之--Gaussian Splatting SLAM(单目3D高斯溅射重建)
3D GS在NeRF领域已经掀起了一股浪潮,然后又很快席卷到了SLAM领域,最近已经看到很多3D GS和SLAM结合的开源工作了。将为大家分享帝国理工学院戴森机器人实验最新开源的方案《》,这也是第一个将3D GS应用到增量3D重建的工作,速度为3 FPS。要想实时从摄像头连续重建出高保真度的三维场景,需要多项创新。原创 2024-03-04 15:30:35 · 11049 阅读 · 0 评论 -
3D Gaussian Splatting是什么以及为什么这么火
其实和MVS,SFM,Nerf这类比较类似,但是我们发现辐射场一类场景表示方法已经在新视角渲染任务上得到了革命性的进展,但是在高分辨率图片上由于需要使用神经网络,导致训练和渲染都需要十分昂贵的代价,因此最近那些速度比较快的方法都不可避免地需要通过损失质量来提高速度。而3D 高斯泼溅(Splatting)是用于实时辐射场渲染的 3D 高斯分布描述的一种光栅化技术,它允许实时渲染从小图像样本中学习到的逼真场景。原创 2024-03-04 15:29:12 · 12640 阅读 · 0 评论 -
经典文献阅读之--TwinLiteNet(可行驶区域和车道分割的高效轻量级模型)
对于自动驾驶来说语义分割是自动驾驶中理解周围环境的一项常见任务。可行驶区域分割和车道检测对于道路上安全且高效的导航尤为重要。为了满足自动驾驶汽车中可行驶区域和车道分割的高效轻量级,《》提出了一种用于可行驶区域和车道线分割的轻量级模型。TwinLiteNet设计代价低廉,但是可以获得精确且高效的分割结果。TwinLiteNet可以在计算能力有效的嵌入式设备上实时地运行,尤其是因为它在Jetson Xavier NX上实现了60FPS帧率,这使其成为自动驾驶汽车的理想解决方案。具体的开源方案已经在上实现了。原创 2024-01-15 09:35:03 · 8253 阅读 · 0 评论 -
经典文献阅读之--MUVO(自动驾驶带几何表征的多模态生成式世界模型)
学习无人监督的自动驾驶世界模型有可能显著提高当今系统的推理能力。然而,大多数工作忽略了世界的物理属性,只关注传感器数据。提出MUVO,一个具有几何体素表示的多模态世界模型。用原始相机和激光雷达数据来学习传感器不可知的世界几何表示,可以直接用于下游任务,如规划。在多模态的未来预测,几何表示改进了相机图像和激光雷达点云的预测质量。代码可以在上获取。图1. 这个例子展示了MUVO对3D占据和摄像头以及激光雷达观测的高分辨率未来预测。原创 2023-12-28 14:22:53 · 7297 阅读 · 0 评论 -
经典文献阅读之--OccNeRF(基于神经辐射场的自监督多相机占用预测)
图2显示了我们方法的流程。利用多摄像头图像Iii1NIii1N作为输入,我们首先利用2D主干提取N个摄像头的特征Xii1NXii1N。然后,将2D特征插值到3D空间,利用已知的内参Kii1NKii1N和外参Tii1NTii1N获得体积特征。正如第3节所讨论的,为了表示无界场景,我们提出了坐标参数化方法,将无限范围缩小到有限的占用区域。进行体积渲染,将占用区域转换为多帧深度图,由光度损失进行监督。原创 2023-12-27 11:11:03 · 7901 阅读 · 0 评论 -
经典文献阅读之--RenderOcc(使用2D标签训练多视图3D Occupancy模型)
3D占据预测在机器人感知和自动驾驶领域具有重要的潜力,它将。最近的研究主要利用3D体素空间中的完整占据标签进行监督。然而,。为了解决这个问题,提出了RenderOcc,一种新的范式,。具体地,。此外,我们引入了一种辅助射线方法来解决自动驾驶场景中稀疏视角的问题,利用连续帧来为每个对象构建全面的2D渲染。据我们所知,RenderOcc是首次尝试仅使用2D标签训练多视图3D占据模型,减少了对昂贵的3D占据注释的依赖。原创 2023-12-25 11:08:02 · 7694 阅读 · 0 评论 -
经典文献阅读之--Calib Anything(使用SAM的无训练标定雷达相机外参)
整个过程可以分为三个部分。对于图像分割,我们使用SAM生成整个图像的掩模。对于点云,我们实现了法线估计、简单的分割方法和强度归一化,以生成每个点的对应属性。然后,优化目标是使落在一个掩模上的点具有接近的属性值。我们设计了一个评估一致性的得分函数。进行几轮搜索以获得最终结果。图2显示了我们提出的方法的流程。图2. 方法概述。对于图像,使用Segment Anything模型生成整个图像的掩码。对于点云,我们实现了法线估计、简单的分割方法和强度归一化,以生成每个点的相应属性。原创 2023-10-19 19:04:28 · 6370 阅读 · 0 评论 -
经典文献阅读之--CVTNet(LiDAR数据地点识别的跨视图Transformer网络)
我们知道激光雷达作为自动驾驶中最为精准的传感器,它可以在绝大多数场景下提供较为精准的定位信息,同时也有很多工作用激光做重定位工作。而《》 这个工作就是基于激光雷达的地点识别(LPR)来完成在没有GPS的环境中识别以前行驶过的地点。现有的LPR方法大多采用单一的输入点云表示,没有考虑不同的投影试图,这可能无法充分利用激光雷达传感器的信息。本文提出了一种基于跨视图的Transformer网络,称为CVTNet,用于融合激光雷达数据生成的距离像视图(RIVs)和鸟瞰视图(BEVs)。原创 2023-10-18 16:40:49 · 6392 阅读 · 0 评论 -
常用的深度学习自动标注软件
自动标注软件是一个非常节省人力资源的操作,而随着深度学习的发展,这些自动化标定软件也越来越多。本文章将会着重介绍其中比较经典的自动标注软件。原创 2023-09-22 20:56:20 · 8165 阅读 · 0 评论 -
TorchLens--可视化任何PyTorch模型
PyTorch是一个深度学习框架,它使用张量(tensor)作为核心数据结构。在可视化PyTorch模型时,了解每个张量运算的意义非常重要。张量运算作为神经网络模型中的基本操作。它们用于处理输入数据、执行权重更新和生成预测结果。同时张量运算还用于计算损失函数。损失函数衡量了模型预测与真实标签之间的差异。通过使用张量运算,可以计算出模型的预测结果与真实标签之间的差异,并将其最小化。所以一款能够可视化任何PyTorch模型的张量显示开源项目非常重要。这里是该项目的地址。原创 2023-09-21 15:49:31 · 7369 阅读 · 0 评论 -
经典文献阅读之--FastSAM(快速分割一切)
图2展示了提出的方法FastSAM的概述。该方法由两个阶段组成,即全实例分割和提示引导选择。前一个阶段是基础阶段,而第二个阶段实质上是面向任务的后处理。与端到端的Transformer[7,8,19]不同,整体方法引入了许多与视觉分割任务相匹配的人类先验知识,例如卷积的局部连接和感受野相关的对象分配策略。这使得它更适合于视觉分割任务,并且可以在较少的参数数量下更快地收敛。图2. FastSAM的框架。它包含两个阶段:全实例分割(AIS)和提示引导选择(PGS)。原创 2023-08-31 13:22:03 · 6969 阅读 · 0 评论 -
经典文献阅读之--MobileSAM(比FastSAM更快的SAM框架)
自从MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果,为探索视觉大模型提供了一个新的方向。虽然SAM的效果很好,但由于SAM的backbone使用了ViT,导致推理时显存的占用较多,推理速度偏慢,对硬件的要求较高,在项目应用上有很大的限制。FastSAM通过更换检测头,能够较好的完成分割的实时性,但是将SAM的"重量级"解码器替换为"轻量级"以使其可在移动端部署应用仍然还是不现实的,所以《原创 2023-08-29 09:39:12 · 7221 阅读 · 0 评论 -
经典文献阅读之--EdgeYOLO(边缘设备YOLO目标检测)
Yolo家族从1-8,目前已经迭代了很多次,但是他们期望的仍然是能够以更低的算力去运行精度更高更快速的算法.目前《》提出了一种基于最先进的YOLO框架的高效、低复杂度和无锚点的目标检测器,可以在边缘计算平台上实时实现。同时文中提到开发了一种增强的数据增强方法,有效抑制训练期间的过拟合,并设计了一种混合随机损失函数,以提高小物体的检测精度。原创 2023-08-28 17:28:29 · 7355 阅读 · 0 评论 -
经典文献阅读之--Multi-level Map Construction for Dynamic Scenes(动态场景的多层次地图构建)
在存在语义先验信息的情况下,可以根据语义类别删除目标检测框或语义掩码中的点云,从而构建仅包含静态因素的稠密点云地图。然而,仅依赖于原始的语义结果,语义信息的“漏检”和“欠分割”问题可能导致动态对象的不完整去除。本文使用YOLOX进行语义信息获取以解决这个问题,为了解决“漏检”问题,本文利用多目标跟踪算法进行漏检补偿,为了解决“欠分割”问题,首先采用DBSCAN聚类算法在潜在移动对象的边界框内提取前景点。随后,基于邻近像素沿着检测框边界和前景点的深度信息,适当扩展检测框。转载 2023-08-26 19:19:02 · 301 阅读 · 0 评论 -
基于 pytorch 实现模型剪枝
torch.nn.utils.prune.is_pruned(module): 判断模块 是否被剪枝。torch.nn.utils.prune.remove(module, name): 用于将指定模块中指定参数上的剪枝操作移除,从而恢复该参数的原始形状和数值。虽然 PyTorch 提供了内置剪枝API,也支持了一些非结构化和结构化剪枝方法,但是API比较混乱,对应文档描述也不清晰,所以后面我还会结合微软的开源nni工具来实现模型剪枝功能。更多剪枝方法实践,可以参考这个github。转载 2023-08-21 11:30:06 · 1524 阅读 · 0 评论