无人机在民用领域和军事战略中起着越来越重要的作用,能够完成包括火灾监测、搜索救援、侦查追踪和执行歼灭等多种任务。存在不确定性的自主决策是一个深入研究的问题空间,特别是在陆、空、海的自主系统运行领域。无人机执行任务的复杂性以及环境的不确定性,要求其系统具有更高的决策能力和自主性。现在的自主决策方法一般是基于人工智能的方法,如模糊推理、神经网络、遗传算法、贝叶斯估计等。无人机在战场的自主决策过程中,战场的威胁评估具有举足轻重的作用,对无人机的决策结果产生重要影响。
1 基于影响图的决策方法
影响图是一个在空战建模过程中综合飞行员知识直观的解决决策问题的方法。严重不确定性环境下的稳健决策面临两个问题:一是如何评估风险替代行为;二是如何从所有可想到的动作中找到最佳的鲁棒动作。影响图方法首先确定群机空战转化为多个小编队作战的原则,然后在协同的思想下把多对多空战模型转化为多个一对一空战模型,最后在不确定环境下,运用影响图对策理论解决一对一空战,使得双方无人机在协同空战对抗过程中能够及时做出最有利的决策。
文献[1]提出了在不确定的战场环境中,无人机在做低风险决策时的一种综合框架,框架分为两部分:离线部分和在线部分。在框架的离线部分,对战场情景进行分析,构建影响图来代表决策情况。在线部分,无人机评估每个场景的替代动作,然后使用鲁棒决策模型选择最优鲁棒动作。该框架可以支持无人机在严重不确定性下立即作出反应的独立稳健决策,并且还可以扩展应用到更复杂情况中。
如图1所示该决策框架包含四个阶段:由军事专家执行的情景分析和决策建模以及无人机本身执行的行动评估和决策。框架包含用于建模决策问题的影响图,其提供推理机来评估替代行动,制定稳健的决策标准来衡量替代行动,同时考虑稳健性和整体性能。
图1 UAV的决策框架
2 基于模糊控制的决策方法
模糊控制,是以模糊集合论、模糊语言变量和模糊逻辑推理为基础的一种计算机数字控制技术。模糊逻辑控制系统主要由模糊化、知识库(含数据库和规则库)、推理决策和精确化计算四部分组成,完成模糊化、模糊推理(利用知识库)和精确化三个过程的任务。其中,模糊推理是根据知识库中的知识来进行推理的过程。近年来,预测控制、神经网络和遗传算法先进控制算法的研究,对于模糊控制规则算法的学习提供了新的方向。模糊逻辑允许在程序中对变量进行分类以获得更智能的推理。
文献[2]对基于模糊控制和混沌力学的无人驾驶飞行器自适应控制系统进行了研究。UAV飞行控制系统需要逐步提高建模精度,以获得确切的自主飞行控制,因此需要在飞行信息中不断地要求建模,使UAV飞行控制系统具有检索信息建模的能力。文献[3]通过创建一个有效工作的系统,使用模糊智能的精确路由优化检查模糊逻辑使用,以显示模糊逻辑优化器的添加如何改进传统的复杂旅行推销员问题的解决方案,允许为一个系统制定一个明智的框架教导另一个机器人团队对周围环境做出反应,得出级联模糊逻辑能进一步提人工高智能系统和机器学习算法的能力的结论。
3 基于学习的决策方法
学习,是指智能体在与环境的不断交互得到的经验过程中,提高其达到目标的能力或未来的累积回报。学习发生在智能体与环境的交互过程中:从环境中获得感知和回报并通过行动来改变环境。分散式学习型模型预测控制是一种新的控制技术,将统计学习与控制工程相结合,提供安全性,鲁棒性和收敛性的保证。文献[4]使用分散式学习型模型预测控制实现了在跟踪空中目标时以期望形成一组多个协同UAV的几何模式。解决了在未建模情况下跟踪空中目标的一组无人机的无人机组合问题时所采取的行为决策问题。
人工神经网络其基本思想是从仿生学的角度对人脑的神经系统进行模拟,使机器具有人脑那样的感知、学习和推理等智能。其主要特征是连续时间非线性、网络的全局作用、并行分布式处理以及高度的鲁棒性和学习联想能力。
在高级导航任务的背景下,基于来自前瞻摄像机的输入,使用神经网络来指导无人机建立了一个通用的框架,用于培训网络,以基于模仿学习来执行任务规划。前馈神经网络(FNN)已被用于训练无人机控制。为应对更复杂的任务,文献[5]提出使用反复神经网络(RNN),训练用于控制无人机的长短期存储器网络。如图5所示,是应用于室内壁障的神经网络的仿制学习的通用框架。
图2 应用于室内壁障的神经网络的仿制学习的通用框架
障碍物避免是移动机器人的核心问题。其目标是允许移动机器人探索未知环境,而不会碰撞到其他对象。最近,利用了人脑结构启发的层次模式的深入学习在计算机视觉方面取得了重大突破,特别是对于认知任务。然而,目前为止,深入学习很少被用于控制和决策。文献[7]用深度学习的优势,以室内避障为例,展示了一种将卷积神经网络(CNN)与决策过程融合的层次结构的有效性。是一个非常紧凑的网络结构,将原始深度图像作为输入,并生成控制命令作为网络输出,通过该网络输出实现无模型的障碍物回避任务。如图3是提出的结合CNN与机器人控制全连接神经网络的模型。卷积神经网络(CNN)是一种用于特征提取的分层神经网络。通过反向传播错误梯度,框架允许学习多阶段特征层次结构。
图3 结合CNN与机器人控制全连接神经网络的模型
4 基于马尔可夫过程决策方法
马尔可夫决策过程是指根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步的状态是随机的,并且其状态转移概率具有马尔可夫性,即一个随机过程未来发展的概率规律与观察之前的历史无关的性质。
文献[8]提出了一种基于马可夫决策进化游戏的学习算法。算法中的每个无人机遵循马尔可夫决策策略,根据对马尔可夫决策过程理论路径规划的研究,可以设计规划模型,把路径规划问题归结为在给定环境模型和奖惩原则的情况下,寻求最优策略的问题。
考虑到无人机间通信延迟大,不可预测的环境和制约因素,为能够在时间关键环境中作出合理决策,文献[9]通过将决策过程建模为每个代理的部分可观察马尔科夫决策过程,代理根据其现状共同分配多个任务,并构建启发式方法来估计状态并减少行动空间,在启发式算法中应用贪婪策略,快速响应时间。
5 基于行为树决策方法
行为树是通过模块化提高自主行为的效率,安全性和鲁棒性的一种方式。它们的优点在于通过动作分解来提供复杂行为的能力,动作的分解是通过条件和复合节点的决策逻辑来选择和执行的。
文献[10]提出了一种基于行为树的可靠决策框架,根据现有的Java行为树(JBT)软件,通过强大的模块化实现自主无人机任务的行为树开发框架,有效地实施复杂的任务。还开发了任务引擎软件,其操作概念是通过使用现有的UAV通信协议来响应于从自动驾驶仪接收到的感知数据,通过向自动驾驶仪传输高级命令来命令UAV自动驾驶仪。使得UAV能够以最小的程度的修改自动驾驶仪来展现增强的自主行为。任务引擎软件加载了实施追捕、逃避、追踪和巡逻的无人机任务的行为树,这些任务在两个模拟无人机的任务引擎软件中按需要运行。图4所示为主行为树,其中每个子行为树由条件节点保护,确定该行为是否已被用户选择。
图4 显示主行为树实施的行为
6 基于分布式方法的决策
传感器、处理器和机身技术最新的进展使得今天能够协调大型自主无人驾驶飞行器(UAV)。为了完成任务的目标,有时需要重新形成阵型,进行任务规划。由于传感器、通信、物理、计算限制,最优配置的集中解决方案通常可能是不可能的或难处理的。分布式指挥控制决策模式更利于战场环境下海量决策信息的交换与共享。
文献[12]提出了一种分布式选择飞行形式的分布式控制方法,它分为两个模块:一个前导后续模块,其允许无人机保持预先指定的形式,以及一个决策模块,允许无人机在各种可用的层次进行最优选择。无人机选择最优形式完成任务的每个部分,并保持此形式直到下一个方向。文献[13]开发了一种用于多个目标多个无人机的任务分配、协调和通信,以及用于使用分布式计算拓扑同步目标列表的自组织路由算法。分布式任务分配通过松弛过程来实现,其中每个节点基于树中邻居的任务分配的并集来计算临时任务分配。每个节点的临时任务分配的计算是基于无人机-目标距离图中的加权匹配。随机采样机制用于在树的不同部分之间传播任务分配。因此,无人机和目标位置的变化不会通过树的根部。这种流量和任务分配算法的组合能够达到最佳性能。
7 基于贝叶斯决策方法
贝叶斯网络是一种能够对复杂系统进行建模和推理的有效工具,关于贝叶斯网络在决策中的研究,可以将贝叶斯网络直接应用于战场威胁态势评估,利用贝叶斯网络解决威胁叠加情况下的威胁评估问题,动态贝叶斯网络与卡尔曼滤波算法结合可以解决在突发移动威胁下的路径重规划决策问题。
文献[15]提出了基于距离值函数的有效单元加权概念的有效贝叶斯形式灰狼优化(GWO),在不确定的和动态环境下发现具有未知轨迹的移动障碍物出现的最佳无人机轨迹。模拟验证该方法在解决无人机轨迹规划问题方面具有有效性。文献[16]提出了一种基于混沌UWB-MIMO波形设计的认知检测和避免雷达系统,实现自主无人机导航,系统架构如图5所示。狄氏过程混合模型(DPMM)的贝叶斯聚类方法用于区分扩展目标和变化点检测算法,适用于潜在的冲突威胁的识别和识别。DPMM的聚类机制不依赖于任何优先目标场景假设,并且促进了任意数量目标的在线多变量数据聚类/分类。也制定了对UAV航行造成冲突威胁的目标导弹的机场,补充了传统的基于卡尔曼滤波的跟踪。雷达系统利用认知机制选择有效的混沌波形能够促进目标检测和辨别。
图5 系统架构
参考文献:
[1]胡笑旋, 陈意, 罗贺. Robust decision making for UAV air-to-ground attack under severe uncertainty[J]. Journal of Central South University, 2015, 22(11):4263-4273.
[2]Xu J. Research on the Unmanned Aerial Vehicle Adaptive Control System based on Fuzzy Control and Chaos Mechanics[J]. DEStech Transactions on Social Science, Education and Human Science, 2016 (isetem).
[3]Mitchell S. A Cascading Fuzzy Logic Approach for Decision Making in Dynamic Applications[D]. University of Cincinnati, 2016.
[4]Hafez A T, Givigi S N, Ghamry K A, et al. Multiple cooperative UAVs target tracking using Learning Based Model Predictive Control[C]// International Conference on Unmanned Aircraft Systems. IEEE, 2015:1017-1024.
[ 5]Kelchtermans K, Tuytelaars T. How hard is it to cross the room?--Training (Recurrent) Neural Networks to steer a UAV[J]. arXiv preprint arXiv:1702.07600, 2017.
[6]Ross S, Gordon G J, Bagnell D. A reduction of imitation learning and structured prediction to no-regret online learning[C]//International Conference on Artificial Intelligence and Statistics. 2011: 627-635.
[7]Tai L, Li S, Liu M. A deep-network solution towards model-less obstacle avoidance[C] //Intelligent Robots and Systems (IROS), 2016 IEEE/RSJ International Conference on. IEEE, 2016: 2759-2764.
[8]Sun C H, Duan H B. Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles[J]. 中国科学:技术科学, 2015, 58(8):1392-1400.
[9]Zhang Y, Xu Y, Hu H. Cooperative Decision Algorithm for Time Critical Assignment without Explicit Communication[J]. Ifip Advances in Information & Communication Technology, 2016, 432:197-206.
[10]David Crofts ,Troy Bruggemann, Jason Ford,A behaviour tree-based robust decision framework for enhanced UAV autonomy.2017.
[11]F. Matarrubia,P. Gonzalez-Calero,R.J. Palma,“Java Behaviour Trees (JBT)”[Online]. Available: https://github.com/gaia-ucm/jbt. [Accessed 27 November 2016].
[12]Smyrnakis M, Kladis G P, Aitken J M, et al. Distributed selection of flight formation in UAV missions[J]. Journal of Applied Mathematics and Bioinformatics, 2016, 6(3): 93.
[13]Ben-Asher Y, Feldman S, Gurfil P, et al. Distributed decision and control for cooperative UAVs using ad hoc communication[J]. IEEE Transactions on Control Systems Technology, 2008, 16(3): 511-516.
[14]任佳, 高晓光, 赵欢欢. 基于目标状态估计的UAV路径重规划决策模型[J]. 控制与决策, 2009, 24(7):1033-1037.
[15]Radmanesh M, Kumar M. Grey wolf optimization based sense and avoid algorithm for UAV path planning in uncertain environment using a Bayesian framework[C]//Unmanned Aircraft Systems (ICUAS), 2016 International Conference on. IEEE, 2016: 68-76.
[16]Nijsure Y A, Kaddoum G, Mallat N K, et al. Cognitive chaotic UWB-MIMO detect-avoid radar for autonomous UAV navigation[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(11): 3121-3131.