【论文笔记】E-TD3：A Deep Reinforcement Learning-based Autonomous Flight Decision-Making Method for UAV

本文链接：https://blog.csdn.net/m0_37758063/article/details/146156389

1.背景

无人机具有机动性强、成本低、易操作等优点，能够增强态势感知能力，在军事和民用领域都发挥着重要作用。导航与跟踪性能作为无人设备的必备功能，是执行任务的基本前提。无人机自主飞行机动决策已成为技术发展的热点。尤其是无人机在树林、城市建筑等密集场景中，将面临更大的挑战。本文重点研究了复杂环境下无人机执行避障和目标跟踪任务的自主飞行决策问题。在避障、目标跟踪等飞行任务中，由于存在较大的状态空间和动作空间，存在算法探索能力不足，样本效率和学习速度较低的问题。

2.贡献

本文有以下贡献：

1.提出了一种基于深度强化学习的无人机自主飞行决策方法–结合专家经验的双延迟深度确定性策略梯度算法E-TD3。
2.加入门控递归单元(GRU)模块，增强了神经网络对视觉图像信息的处理能力。
3.建立了双经验重放缓冲区，设计了混合样本采集机制，在训练过程中动态调整专家经验样本的比例，有效避免了策略的局限性和对后续开发过程的影响。

3.无人机建模

本文以装备有视觉等多种传感器的四旋翼无人机为研究对象，开展无人机自主飞行决策问题的研究。首先将问题抽象为一个马尔可夫决策问题，通过状态、动作、奖励的信息进行无人机与环境之间的交互，获得最优策略，在完成任务的同时获得最大总奖励 $G_t$ 。
在这里插入图片描述

这里 $\gamma$ 是折扣因子，用于调整未来奖励的影响。

4.网络设计

下图是A-C网络的内部结构图，输入的状态信息包含无人机的位置分量、速度分量、偏航角、无人机速度的方向和与目标距离矢量的角度 $\theta$ 以及相机拍摄的图片。要将图片信息与其它信息进行拼接，本文在网络中加入了一个图像处理网络。
在这里插入图片描述

因为无人机飞行过程中采集的高维图像数据无法直接与传感器数据拼接。因此，设计了一个卷积神经网络，它使用卷积层，池化层，BN层等来进行高维图像信息的降维和特征提取。由于所设计的网络层次较深，为了克服梯度消失的问题，还在网络中引入了门控递归单元(GRU)来处理序列数据。
在这里插入图片描述

5.TD3框架

下图是TD3算法的框架图，包含两个Actor网络和4个Critic网络，Actor网络用于生成动作，Critic网络用于评估动作的好坏。
在这里插入图片描述
这里取2个Critic网络中较小的一个用于后续计算，可以减少Q值高估的问题，通过最小化当前网络和目标网络目标值的差值来计算损失函数进行参数的优化跟新。TD3算法适用于求解连续动作空间中的问题，在保留DDPG算法优点的同时，对Q值高估等问题进行了优化。

6.E-TD3框架

这个是本文提出的E-TD3的框架图，在网络内部加入了卷积神经网络层，并且在经验回放池的基础上添加了一个专家经验池，包含了无人机在特定任务中理想的行为和策略，为智能体提供可靠的指导演示，可以加快初期的学习效率和探索能力。
在这里插入图片描述
但是过多的专家经验会影响算法的进一步探索和策略优化，为了避免过拟合，本文提出了一种动态样本混合方法，调整训练时各自的样本比例。 $N_B$ 是总的样本数量， $P_E$ 表示专家经验池中的样本比例， $n_1$ 和 $n_2$ 分别表示从专家经验池中抽取的样本数量和从经验回放池中抽取的样本数量，然后返回经过混合的训练样本，供后续训练过程使用。
在这里插入图片描述
训练过程中，选取目标critic网络中较小的Q值计算得到目标值。

然后与2个critic网络生成的值进行作差计算损失函数，并更新critic网络的参数。

接着经过固定时间t步后使用策略梯度方法来更新Actor网络的参数，使得Actor生成的动作能最大化Critic网络评估出的Q值，隔t步后再进行更新可以提高训练过程的稳定性。
在这里插入图片描述
最后使用软更新的方式，使目标网络参数按一定比例 τ接近当前网络的参数，避免网络过度波动。

7.实验

接下来是实验部分，首先在仿真软件中构建了一个几何场景和一个真实的林地场景如下图所示。
在这里插入图片描述

目标无人机根据既定策略进行飞行机动，我们无人机的任务是安全通过障碍环境并稳定跟踪目标。

这个表列出了实验中用到的一些参数，包括梯度下降算法中的学习率，折扣因子设置为0.99，计算价值函数对未来奖励的折扣，训练轮次为2000轮，还有混合样本比例 $P_E$ ，只在前300轮提供专家经验样本数据。
在训练过程中，用能否完成任务、最终稳定奖励大小和稳定所需要的轮次来评估性能的指标，使用TD3算法作为基准进行比较。
在这里插入图片描述

可以看到E-TD3算法最终的稳定奖励要大一些，并且较少的训练轮次模型就能收敛，为了更直观的比较两种算法的性能，第二个图给出了两个环境下算法的奖励曲线变化情况，可以看到E-TD3能够在早期获得更大的奖励，探索能力更强，使模型较快收敛。
还绘制了无人机的飞行轨迹和速度曲线，来对训练模型的飞行控制效果进行评估。
在这里插入图片描述

图中红线为目标无人机运动轨迹和速度，蓝线为我们无人机运动轨迹和速度。与TD3算法相比，结合专家经验的E-TD3算法提高了初始时刻的y轴速度，更快地调整飞行方向，减小了与飞行器形成的方位角，在此期间加快移动速度，以减少与目标的距离，并逐渐接近目标，能够在50步左右实现稳定跟踪。与TD3算法相比，E-TD3算法下的无人机飞行更加稳定，可以更快地实现近距离跟踪。

8.总结

本文研究了一种基于深度强化学习理论的无人机自主飞行决策方法E-TD3。在避障和目标跟踪两类飞行任务的背景下，所得到的最优策略为无人机提供了一种动态规划方案。该方法以TD3框架为基础，引入GRU构建决策模型，增强了神经网络处理视觉图像信息的能力。此外，针对经典算法探索能力不足、样本效率低的缺点，改进方法建立了双经验重放缓冲区，引入专家经验驱动探索的思想，设计了混合样本采集机制，自适应动态调整演示数据的比例，从而避免了专家经验对策略的限制和对后期开发过程的影响。在AirSim仿真平台上对改进算法进行了测试。实验结果表明，E-TD3算法能够对探索过程中出现的局部收敛问题进行优化，有效地提高了采样效率，加快了策略收敛速度。