- 博客(29)
- 收藏
- 关注
原创 【论文阅读】室内场景视觉导航:Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning
深度强化学习的两个较少解决的问题是:(1) 对新目标的泛化能力不足,以及 (2) 数据效率低下,即模型需要多次(且通常代价高昂)的试验和错误才能收敛,这使得其在实际场景中的应用变得不切实际。在本文中,我们解决了这两个问题,并将我们的模型应用于目标驱动的视觉导航。为了解决第一个问题,我们提出了一个策略是目标和当前状态函数的actor-critic模型,这样可以更好地泛化。为了解决第二个问题,我们提出了AI2-THOR框架,它提供了一个具有高质量3D场景和物理引擎的环境。
2024-09-04 13:31:16
1211
1
原创 【论文阅读】基于视觉的导航与探索 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration
在陌生环境中进行机器人学习的导航需要提供两种策略:一种是面向任务的导航(即到达机器人定位的目标),另一种是任务无关的探索(即在新环境中搜索目标)。通常情况下,这些角色由不同的模型处理,例如使用子目标提议、规划或不同的导航策略。在这篇论文中,我们描述了如何训练一个统一的扩散策略,既可以处理目标导向导航,也可以处理目标无关的探索。后者提供了在新环境中搜索的能力,而前者提供了一旦定位到目标就能达到用户指定目标的能力。
2024-07-30 15:28:46
1924
原创 从零开始的深度学习(二):各类卷积变种介绍
本文介绍了卷积的一些常见变种,旨在进一步理解卷积的作用、经典思考等,为更加有效地搭建神经网络提供基础材料。对于相关模块的pytorch实现将在从零开始的深度学习实战篇(一)中介绍。
2024-05-16 10:42:10
934
原创 从零开始的深度学习(一):卷积基础
卷积,是卷积神经网络中最重要的组件之一。不同的卷积结构有着不一样的功能,但本质上都是用于提取特征。比如,在传统图像处理中,人们通过设定不同的算子来提取诸如边缘、水平、垂直等固定的特征。而在卷积神经网络中,仅需要随机初始化一个固定卷积核大小的滤波器,并通过诸如反向传播的技术来实现卷积核参数的自动更新即可。本文将从背景、原理、特性及改进四个维度分别梳理10篇影响力深远的经典卷积模块以及10篇具有代表性的卷积变体,使读者对卷积的发展脉络有一个更加清晰的认知。
2024-05-16 10:24:35
1446
原创 扩散模型初探之DDPM
深度生成模型已经打开了另一个人类创造力的深奥领域。通过捕捉和概括数据中的模式,我们进入了全方位人工智能创造力(AIGC)的时代。值得注意的是,扩散模型作为最重要的生成模型之一,将人类构思转化为可在多个领域实现的具体实例,包括图像、文本、语音、生物学和医疗保健等。如何让机器拥有类似人类的想象力?深度生成模型,包括变分自动编码器(VAE)、能量基模型(EBM)、生成对抗网络(GAN)、归一化流(NF) 和扩散模型,展示了在生成逼真样本方面的显著潜力。扩散模型代表了这一领域的先进水平。这些模型有效地克服了诸如VA
2024-01-09 14:04:32
1632
原创 对比学习(一):CV领域对比学习的兴起
论文Dimensionality Reduction by Learning an Invariant Mapping是由LeCun团队做的比较早的关于对比学习的工作。在这篇论文中,作者研究了一种降维方法,学习不变映射(DrLIM),用于学习一个全局一致的非线性函数,该函数将数据均匀映射到输出流形上。学习仅依赖于邻域关系,不需要输入空间中的任何距离度量。现有降维方法一般有两个缺点,其一是不会产生一个从输入到流形的函数或映射,这个函数或映射可以应用于与训练点的关系未知的新点
2023-11-13 17:52:38
608
原创 MMdetection3d学习(二)
在轻松掌握 MMDetection 整体构建流程(一)文中,重点分析了 MMDetection 框架中 Model 整体构建流程,但仅对 Model 算法组件方面进行深入分析,并未涉及整个框架训练和测试流程。本文核心内容是按照抽象到具体方式,从多个层次进行训练和测试流程深入解析,从最抽象层讲起,到最后核心代码实现,希望帮助大家更容易理解 MMDetection 开源框架整体构建细节。
2023-08-07 11:10:58
797
原创 UFLD & UFLDv2论文学习
为了解决上述问题,作者提出将车道检测制定为基于全局图像特征的基于行选择方法。换句话说就是使用全局特征在每个预定义行上选择正确的车道位置。在公式中,车道表示为预定义行的一系列水平位置,即行锚点。为了表示位置,第一步是网格化。在每个行锚点上,位置被划分为许多单元格。这样,通道检测可以描述为在预定义的行锚点上选择某些单元格,如图3(a)所示。设最大车道数为C,行锚点数为h,网格单元数为w。设X为全局图像特征。
2023-08-07 10:54:44
2065
原创 Git基础教程
以下是一个 Git 使用攻略,涵盖了一些常用的 Git 命令和工作流程。这些命令和步骤将帮助您在项目中使用 Git 进行版本控制。
2023-06-02 10:47:19
287
原创 conda常用命令和Linux下安装conda
期间有ENTER的地方可以直接回车,遇到MORE信息,可以摁Q键跳过,遇到需要输入yes|no的地方输入yes即可。即可直接从清华镜像网站上下载anaconda安装包, 视情况选择自己的版本,我选择的是2021.11版本。usrname对应账户名,这里需要根据自己的本机做修改,然后点SAVE保存修改。在ubuntu中ctr+alt+t打开终端,输入。如果有版本输出则安装成功。在弹出的文本框最下面键入。
2023-05-31 10:20:41
7065
原创 conda、pip换源总结
将某个源的地址添加到channels中。进入编辑模式,编辑完成后按ESC,输入。修改conda配置文件。通过配置文件的形式更换源。
2023-05-31 10:17:25
3653
原创 3D目标检测论文阅读:BEVFusion4D
将激光雷达和相机信息整合到BEV (Bird - eye - view)中已成为自动驾驶中三维目标检测的重要课题。现有的方法大多采用独立的双分支框架来生成激光雷达和相机的BEV,然后进行自适应模态融合。由于点云提供了更精确的定位和几何信息,因此在从图像中获取相关语义信息之前,点云可以作为可靠的空间信息。因此,我们设计了一种激光雷达引导的视图转换器(LGVT),以有效地获得BEV空间中的相机表示,从而有利于整个双支路融合系统。
2023-05-29 14:36:55
1184
1
原创 3D车道线检测论文阅读:3DLaneNet
我们介绍一种网络,可以直接从单张图像中预测道路场景中车道的3D布局。这项工作标志着在不假设已知恒定车道宽度或依赖预映射环境的情况下,首次尝试用车载视觉传感解决这一任务。我们的网络架构3D-LaneNet应用了两个新概念:网络内部的逆透视映射(IPM)和基于锚点anchor的车道表示。网络内的IPM投影促进了常规图像视图和顶视图的双重表示信息流。每列anchor输出表示使我们的端到端方法取代了常见的启发式方法,如聚类和异常值排除,将车道估计作为对象检测问题。
2023-05-29 14:31:01
1235
3
原创 卡尔曼滤波(Kalman Filter)概念介绍及详细公式推导
卡尔曼滤波(Kalman filter)是一种高效率的递归滤波器(自回归滤波器),它能够从一系列的不完全及包含噪声的测量中,估计动态系统的状态。卡尔曼滤波会根据各测量量在不同时间下的值,考虑各时间下的联合分布,再产生对未知变数的估计,因此会比只以单一测量量为基础的估计方式要准。卡尔曼滤波得名自主要贡献者之一的鲁道夫·卡尔曼。 卡尔曼滤波的算法是二步骤的程序。
2023-05-29 14:18:51
75951
8
原创 MMdetection3d学习(一)
众所周知,目标检测算法比较复杂,细节比较多,难以复现,而我们推出的 MMDetection 开源框架则希望解决上述问题。目前 MMdetection 已经复现了大部分主流和前沿模型,例如 Faster R-CNN 系列、Mask R-CNN 系列、YOLO 系列和比较新的 DETR 等等,模型库非常丰富,star 接近 13k,在学术研究和工业落地中应用非常广泛。
2023-05-29 14:14:41
3033
2
原创 OpenLane数据集解析
OpenLane是迄今为止第一个真实世界和最大规模的3D车道数据集。我们的数据集从公开感知数据集中收集有价值的内容,为1000个路段提供车道和最近路径物体(CIPO)注释。简而言之,OpenLane拥有20万帧和超过88万条精心标注的车道。我们已经公开发布了OpenLane数据集,以帮助研究社区在3D感知和自动驾驶技术方面取得进步。详见论文。OpenLane数据集是在自动驾驶领域的主流数据集上构建的。在1.0版本中,我们在Waymo开放数据集上发布了注释。
2023-05-09 18:10:15
3934
4
原创 以栅格为中心的自动驾驶交通场景感知综述
以栅格为中心的感知是移动机器人感知和导航的一个关键领域。然而,在自动驾驶中,以栅格为中心的感知不如以对象为中心的感知那么普遍,因为自动驾驶汽车需要准确地感知高度动态的大规模室外交通场景,并且以栅格为中心的感知的复杂性和计算成本很高。深度学习技术和硬件的快速发展为以栅格为中心的感知的演变提供了新的见解,并使许多实时算法的部署成为可能。目前的工业和学术研究表明,以栅格为中心的感知具有巨大的优势,如全面的细粒度环境表示、更强的遮挡鲁棒性、更高效的传感器融合和更安全的规划策略。
2023-03-10 09:20:58
2956
原创 远程多用户访问及windows+ubuntu双系统软切换
Xrdp是Microsoft远程桌面协议(RDP)的一个开源实现,它允许以图形方式控制远程系统。使用RDP,您可以登录到远程计算机并创建一个真正的桌面会话,就像您登录到本地计算机一样。本博文以通过xrdp安装脚本为例安装该服务,xRDP安装程序脚本可以简化Ubuntu机器上xRDP包的安装。xRDP安装程序脚本执行额外的配置后操作,以提供最佳的远程桌面用户体验。这些脚本是专门为标准Ubuntu版本构建的。
2022-11-19 18:10:20
5848
2
原创 Patchwork++论文阅读——基于3D点云的快速鲁棒地面分割算法
Patchwork++: Fast and Robust Ground Segmentation Solving Partial Under-Segmentation Using 3D Point Cloud。在使用3D LiDAR传感器的3D感知领域,地面分割是各种目的的基本任务,例如可穿越区域检测和目标识别。在这种情况下,已经提出了几种地面分割方法。然而,仍存在一些限制。Patchwork++在Patchwork基础上进行了改进,得到更好的地面分割效果。
2022-11-19 11:56:49
4935
1
原创 使用PCLPY进行点云图像融合
pclpy是点云库(PCL)的Python绑定。使用CppHeaderParser和pybind11从头文件生成。这个库正在积极开发中,api可能会发生变化。所包含的模块确实可以工作,但测试还不完整。目前只支持Windows和python 3.6 x64。许多其他python库尝试绑定PCL。最流行的是python-pcl,它使用Cython。虽然Cython非常强大,但绑定c++模板并不是它的强项(PCL大量使用模板)。
2022-10-05 17:16:42
2331
2
原创 一文看懂自动驾驶中的坐标变换
在自动驾驶任务中,我们通过各种传感器对周围环境进行感知,获取图片。点云等各种数据,由于传感器的位置、数据的形式、不同数据的含义等差异,在进行环境感知任务前,需要进行坐标、数据形式的统一,其中坐标变换是极其重要的一环。
2022-09-20 01:53:38
6493
原创 使用cityscapes数据集建立yolov7测试集
测试集的建立对评价模型好坏非常重要,本文使用cityscapes数据集,对其分割标签进行转换得到目标检测标签,并建立yolov7测试集,对训练的模型进行测试。
2022-09-07 18:56:44
2900
5
原创 深度学习目标检测模型测试评价指标的选取及介绍
自动驾驶的一大前提是保证人的安全,故对人的检测是必须的。考虑到自动驾驶的场景需求,各类车辆、交通灯、交通标志以及其他路上高频出现的,对决策有影响的物体类别都应进行识别,例如摩托车、自行车等。测试指标对评估模型性能好坏有着至关重要的意义,目前已有大量相关研究,本文对在工程中选取的指标做出总结,并介绍了目前比较主流的各类评价指标。
2022-09-06 14:56:06
7113
3
原创 yolov7训练BDD100k自动驾驶环境感知2D框检测模型
近日,伯克利AI实验室发表了CV领域到目前为止规模最大、最多样化的开源视频数据集–BDD100K数据集。该数据集由100000个视频组成,每个视频大约40秒,720P,30fps,总时间超过1,100小时,视频序列还包括GPS位置、IMU数据和时间戳;视频带有由手机记录的GPS/IMU信息,以显示粗略的驾驶轨迹,这些视频分别是从美国不同的地方收集的,如上图所示,该数据库,涵盖了不同的天气状况,包含晴天、阴天和雨天以及在白天和夜天的不同时间。
2022-09-05 17:11:52
4576
20
原创 BEVFormer论文翻译校对版
3D视觉感知任务,包括基于多摄像机图像的3D检测和地图分割,对于自动驾驶系统至关重要。在这项工作中,我们提出了一个新的框架,称为BEVFormer,它使用时空变换器学习统一的BEV表示,以支持多个自主驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状的BEV queries与空间和时间进行交互,从而利用空间和时间信息。为了聚集空间信息,我们设计了一个空间交叉注意力,每个BEV查询从摄像机视图中的感兴趣区域提取空间特征。对于时间信息,我们提出了一种时间自注意力来递归地融合历史BEV信息。
2022-08-22 11:59:39
1755
原创 ROS安装步骤
ROS (Robot Operating System)起源于2007年斯坦福大学人工智能实验室与WillowGarage公司的个人机器人项目,其后被Willow Garage公司开源和发展,目前由OSRF(Open Source Robotics Foundation, Inc)公司维护。它是一个开源的面向机器人软件开发的灵活框架,是一系列开发工具和开发库的集合体,同时,作为一种类似于传统操作系统的元操作系统(Meta-Operating System)还提供了硬件抽象、设备驱动、信息传递等诸多功能。..
2022-08-17 15:22:12
22549
3
原创 【anaconda】Collecting package metadata (current_repodata.json): failed / Solving environment: failed
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-09-10 00:47:17
155
转载 图像融合概述
转载自https://www.cnblogs.com/silence-hust/p/4192363.html一、概述 图像融合是图像处理中重要部分,能够协同利用同一场景的多种传感器图像信息,输出一幅更适合于人类视觉感知或计算机进一步处理与分析的融合图像。它可明显的改善单一传感器的不足,提高结果图像的清晰度及信息包含量,有利于更为准确、更为可靠、更为全面地获取目标或场景的信息。图像融合主要应...
2019-04-26 14:08:18
1043
使用PCLPY进行点云图像融合代码及所用文件
2022-10-05
bdd100k数据集标签转COO再转YOLO程序
2022-09-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人