论文分享:基于深度强化学习的无人机三维导航

论文提出了一种基于双批评家深度强化学习(如TD3和SAC)的无人机无地图三维导航系统,仅使用距离传感器数据进行训练。相比DDPG和BUG2算法,该方法表现更优,且利用RNN结构增强了导航和避障能力。实验结果显示,该方法在有障碍的环境中能有效执行导航任务,提高了避障效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文题目: Double Critic Deep Reinforcement Learning for
Mapless 3D Navigation of Unmanned Aerial Vehicles
作者: Ricardo Bedin Grando1, Junior Costa de
Jesus2, Victor Augusto Kich3, Alisson
Henrique Kolling3, Paulo Lilles Jorge Drews-Jr2
论文链接: https://arxiv.org/pdf/2112.13724v1.pdf

一、概述

解决问题: 提出了一种新的基于深度强化学习的无人机三维mapless导航系统。没有使用基于图像的传感方法,提出了一个简单的学习系统仅使用来自距离传感器的少量稀疏范围数据来训练学习代理。
方法: 基于两种最先进的双批评家深度RL模型:双延迟深度确定性策略梯度(TD3)和软参与者批评家(SAC)。两种方法优于基于深度确定性策略梯度(DDPG)技术和BUG2算法的方法。此外基于递归神经网络(RNN)的新深度RL结构优于当前用于执行移动机器人mapless导航的结构。
结论: 基于双批评和递归神经网络(RNN)的深度RL方法更适合执行无人机的mapless导航和避障。提高了机器人避障的能力。
在这里插入图片描述

二、算法原理

无人机系统可以学习从空间上的起始位置导航到目标位置,并通过一系列目标点,在有障碍的环境中建立自己的运动计划。只需要两个距离传感数据无人机的相对定位数据来执行mapless导航和避障。运动方程为:vt = f(xt, pt, vt-1); 其中xt为传感器读数的原始信息,pt是相对位置和角度,vt-1是无人机上一时刻速度。该模型允许获得机器人能够做出的动作,给定其当前状态st。体现在神经网络中,预期结果是当前状态的动作。

1、网络架构

网络包含26个输入3个输出的结构。在26个输入中,20个表示来自模拟激光雷达的距离发现,3个表示用于无人机以前的动作,其他3个表示有关目标的信息。激光雷达在270°范围内提供1080个样本,其中20个以13.5°等距采样。使用的目标信息是无人机与目标的相对距离和与目标的两个相对角度。网络的输出提供了给定步长的动作,即线性速度和高度速度以及偏航角的变化。然后将这些动作应用于无人机。如下图:
在这里插入图片描述
网络架构具有32单元LSTM层,用于使用ReLU功能激活的actor网络。双曲正切函数用作actor输出中的激活函数。线性速度的值在0到0.25 m/s之间缩放,delta yaw在-2.5到2.5rads。高度速度为-0.25和0.25 m/s。当前状态和代理执行的操作的Q值在批评网络中给出。对于基于SAC的方法,价值网络的结构与批评家网络相同。
在这里插入图片描述

2、奖励函数

只有两种奖励,一种是正确完成任务,另一种是失败。当目标在cd米的边距内达到时,代理收到100的正奖励。该边距设置为0.5m表示误差。另外在与障碍物或场景限制碰撞的情况下,我们给出了一个负奖励−10。如果距离传感器的读数低于0.5米的距离co,则验证碰撞。这种简化的奖励系统也有助于关注深度RL方法本身,而不是关注环境。
在这里插入图片描述

三、实验结果

使用了两个环境来训练和测试我们的代理。第一个环境基本上是一个边长10米的盒子,有自由空间来执行导航。第二个环境与第一个环境相同,但添加了4个固定障碍。设置这些障碍物是为了代表工业场景中的钻井立管,在工业场景中可以应用这种方法。两种环境都有5×5m的面积,如图5所示。蓝线是无人机的传感器光线。还使用了模拟风来增加难度。在三轴上使用Ornstein-Uhlenbeck噪声模拟风,速度设置为−0.175至0.175米/秒。对于室内环境而言,这相当高,相当于无人机可以达到的最大速度的70%。从经验上看,更高的值使场景几乎不可行,而较低的值对整体结果没有太大影响。

在第一个任务(导航任务)中,车辆应该从空间中的一个点导航到另一个点,而在第二个任务(航路点导航任务)中,应该访问多个点。在测试和评估期间,在两项任务中都使用了模拟风。此外,还针对每种场景培训了一名代理。在两种情况下对这两项任务分别进行了总共100次的评估。成功轨迹的总数表示无人机在其中导航的百分比。 具体数据见原文。

在训练阶段,从奖励中收集数据。我们收集了第一个场景中1000集和第二个场景中1500集的数据。训练的最后一集是根据所获得的平均奖励的停滞来选择的。下图分别显示了第一个和第二个场景中前300集的奖励移动平均值。在这里插入图片描述
结论: 具有双批评者和RNN的方法比具有全连接人工神经网络的最先进方法更适合,通常用于地面移动机器人。提出的系统能够通过仅使用无人机的相对定位数据和一些距离发现来执行导航相关任务,而不使用基于图像的传感,这可能需要昂贵的硬件能力来实现良好的性能。基于双评论家-演员-评论家SAC和TD3算法的方法也设法绕过障碍物并达到预期目标,新方法优于基于DDPG的方法和BUG2算法。取得的良好结果可以归功于一个简单的基于感知的结构和一个简单的奖励系统。

内容来源于参考论文整理,侵权联系删。
未尽事宜可阅读原文,欢迎关注!

<think>好的,我现在需要帮用户解决关于基于深度学习无人机航迹规划系统的毕业设计问题。用户想要相关资料、实现方法、方案、论文示例和代码。首先,我得理清这个主题的关键点,确保覆盖所有必要的内容。 首先,无人机航迹规划涉及路径规划、避障和优化,而深度学习在这里的应用可能有使用神经网络处理环境数据,生成最优路径。我需要考虑用户可能需要哪些步骤来实现这个系统,比如环境建模、算法选择、仿真测试等。 接下来,用户提到的毕业设计可能需要足够的代码工作量和论文内容,参考引用里的建议,项目需要有研究性和足够工作量。所以,我得确保方案中的每个部分都能支撑论文的不同章节,比如引言、相关工作、方法、实验、结果等。 然后,实现方案部分需要分步骤,可能包括环境建模(栅格法或三维点云)、算法设计(比如结合DQN或A3C的强化学习)、数据集准备(合成或真实数据)、训练策略(迁移学习或课程学习)、仿真测试(Gazebo或AirSim),以及实际部署的考虑。这些步骤需要详细说明,让用户有清晰的路线图。 关于示例代码,可能需要给出一个简单的强化学习框架,比如使用PyTorch实现DQN。但需要提醒用户这只是一个起点,实际系统可能需要更复杂的网络结构和环境交互。此外,仿真平台的选择和集成也是关键,可能需要指导用户如何设置仿真环境,比如使用AirSim和ROS连接。 论文结构方面,用户可能需要知道每个章节应包含什么内容。比如引言部分说明研究背景和意义,相关工作部分对比传统方法和深度学习的优势,方法部分详细描述算法设计,实验部分展示仿真结果和对比分析,讨论部分则分析优缺点和未来方向。 相关问题部分,需要预测用户可能进一步的问题,比如实时性处理、多无人机协同、能耗优化等,这样用户可以有扩展研究的思路。同时,引用中的参考[1]和[2]提醒要确保项目有足够的研究性和工作量,避免论文难以展开。 最后,确保回答符合格式要求:行内公式用$...$,独立公式用$$...$$,正确的中文回答,结构清晰,引用标识自然添加。需要检查LaTeX语法是否正确,例如路径规划的数学表达式是否准确,比如奖励函数的设计或损失函数的定义。 可能还需要考虑用户的实际能力,比如是否熟悉强化学习框架、仿真工具的使用,所以在建议中提及学习PyTorch和仿真平台是必要的。此外,数据集部分提到合成数据,可能需要用户掌握一些数据生成的方法,或者使用公开数据集,这需要进一步资源推荐。 总结来说,整个思考过程需要覆盖技术实现的各个步骤,确保毕业设计的可行性和深度,同时引导用户扩展思路,满足论文写作的需求。还要注意格式和引用规范,保持回答的专业性和实用性。</think>基于深度学习无人机航迹规划系统设计与实现方案 一、系统设计框架 1. 环境建模与感知 - 采用栅格化地图或三维点云建模环境,输入数据格式为$M \in \mathbb{R}^{H×W×C}$的多通道矩阵 - 使用改进的U-Net网络进行障碍物识别与特征提取 - 融合惯性测量单元(IMU)和GPS数据构建状态空间$S_t$ 2. 深度强化学习算法设计 $$ \max_{\theta} \mathbb{E}_{\tau \sim \pi_\theta}[\sum_{t=0}^T \gamma^t r(s_t,a_t)] $$ 采用D3QN(Dueling Double Deep Q-Network)架构,结合优先经验回放机制[^2] 二、关键技术实现步骤 1. 数据集准备 - 使用AirSim仿真平台生成航迹训练数据 - 数据增强:添加光照变化、雾效、动态障碍物等干扰 2. 网络结构设计 ```python class D3QN(nn.Module): def __init__(self, input_dims, n_actions): super(D3QN, self).__init__() self.conv = nn.Sequential( nn.Conv2d(input_dims[0], 32, 3), nn.ReLU(), nn.MaxPool2d(2)) self.fc = DuelingNetwork(64, n_actions) # 包含价值流和优势流 def forward(self, x): x = self.conv(x) return self.fc(x) ``` 3. 奖励函数设计 $$ r_t = w_1\cdot d_{progress} + w_2\cdot e_{safety} + w_3\cdot e_{smooth} $$ 其中$d_{progress}$为航程进度奖励,$e_{safety}$为安全距离惩罚项 三、论文结构建议 1. 引言:无人机应用背景与航迹规划挑战 2. 相关工作:传统算法(RRT*,A*)与深度学习方法的对比 3. 方法论:环境建模、网络架构、训练策略 4. 实验:在仿真环境中的对比实验结果(成功率、路径长度等指标) 5. 讨论:实际部署的工程挑战与解决方案 四、开发工具推荐 1. 仿真平台:AirSim + ROS 2. 深度学习框架:PyTorch 3. 可视化工具:RViz + Matplotlib
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

执着且专注

予人玫瑰,手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值