深度强化学习及其在军事领域中的应用综述-CSDN博客

本文链接：https://blog.csdn.net/longtengzhangjie/article/details/137953670

源自：系统工程与电子技术

作者：张梦钰, 豆亚杰, 陈子夷, 姜江, 杨克巍, 葛冰峰

“人工智能技术与咨询” 发布

摘要

随着大数据、云计算、物联网等一系列新兴技术的大量涌现, 人工智能技术不断取得突破性进展。深度强化学习(deep reinforcement learning, DRL)技术作为人工智能的最新成果之一, 正被逐渐引入军事领域中, 促使军事领域走向信息化和智能化。在未来战争作战模式及军队发展建设中, 网络化、信息化、智能化和无人化形成重要特征, 已经成为不可逆转的趋势。因此, 在回顾了DRL基本原理和主要算法的基础上, 对当前DRL在武器装备、网络安全、无人机(unmanned aerial vehicle, UAV)编队、智能决策与博弈等方面的应用现状进行了系统的梳理与总结。最后, 针对实际推进DRL技术在军事领域应用落地所面临的一系列问题和挑战, 提供了未来进一步研究的思路。

关键词

深度强化学习, 军事应用, 智能决策, 发展趋势

引言

近年来, 随着大数据、云计算、物联网等一系列新兴技术的大量涌现, 人工智能技术不断取得突破性进展。作为21世纪的顶尖技术之一, 人工智能给各个领域的发展都带来了前所未有的机遇和挑战, 在军事领域也不例外。文献[1]对大数据时代的军事信息体系与发展战略进行了重点研究[1], 军事智能化已不再是一个陌生的概念, 其正在全面影响着军队建设和未来战争形态[2]。从应用角度来看, 军事智能化主要体现在以下5个层次[3]: 以无人机、无人车等仿生智能为主的单装智能; 以人机融合、集群、协同等概念为核心的协同智能; 以智能感知、决策、打击、防御等多要素作战力量综合运用的体系智能; 以通信、网络、电子、舆情等专业领域管控的专项智能; 以作战体系基于数据、模型、算法获取涌现效应为目标的进化智能。人工智能技术为这些应用的落地提供了坚实的基础。

深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)作为实现人工智能的先进技术, 分别在信息感知和认知决策领域有着出色的表现[4-5]。深度RL(deep RL, DRL)[6]则是近几年提出的新兴概念, 其结合了DL与RL的优势, 是人工智能的最新成果之一, 在机器人控制、计算机视觉、自然语言处理、博弈论等领域中都取得了重要研究进展。在军事领域中, 针对作战任务规划、智能军事决策与智能博弈对抗等问题的解决, DRL也有着巨大的应用潜力, 引起了研究人员的广泛关注。

目前, 关于DRL的研究已经取得了较大进展, 有一些关于DRL的综述性文献陆续发表[6-7], 但其更加偏向于对DRL算法的总结。除此之外, 也有一些关于DRL在领域应用中的综述, 如无人机[8]、通信与网络[9]、智能制造[10]等领域, 然而关于DRL在军事领域中的应用, 并没有专门的综述性文献对其进行深入梳理和总结。基于此, 本文首先回顾了DRL的理论发展历程; 然后对DRL的基本算法及改进算法进行了归纳总结; 最后对前人研究中DRL在军事领域武器装备、网络安全、无人机编队、智能决策与博弈等问题的应用现状进行了系统性的梳理和总结, 并展望了其发展方向和前景。

1 DRL的基本原理

1.1 DL

DL是机器学习(machine learning, ML)领域中的一个研究方向, 致力于自动学习样本数据的内在特征与规律, 完成数据信息的提取工作, 使机器能够像人类一样具有分类和识别等能力。大多数DL的模型都以人工神经网络(artificial neural network, ANN)为基础[11-12], 其结构如图 1所示。人工神经元支撑着整个神经网络的工作, 组成相互连接的输入层、隐藏层和输出层。其中, 信息通过输入层进行获取, 在隐藏层进行特征提取后, 再通过输出层输出结果。两个神经元间的连接称之为权重θ, 每个神经元接受来自其他几个相连接的神经元的输入, 这些输入被乘以分配的权重θ后相加, 接着将总和传递给一个或多个神经元。一些神经元可能在将输出传递给下一个变量之前将激活函数应用于输出。需要注意的是, 这里的输入值和输出值是相对的, 较低层的输出将作为更高一层的输入。通过这种多层非线性运算, 最终实现DL从训练数据中提取特征的目的。

图1 ANN的结构

深度神经网络(deep neural networks, DNN)被定义为具有多个隐藏层的ANN。前馈神经网络和反馈神经网络是两种DNN模型。前馈神经网络中各个神经元分层排列, 每个神经元的输出仅由当前的输入和权重θ决定, 各层之间无反馈。而反馈神经网络中神经元的输出不仅与当前的输入和权重θ有关, 而且与之前的网络输入也密切相关。与此同时, 每个神经元还将自己的输出作为输入反馈给其他神经元, 因此反馈神经网络需要经历一段时间的工作后才能实现稳定。卷积神经网络(convolutional neural networks, CNN)和循环神经网络(recurrent neural network, RNN)分别是前馈神经网络模型和反馈神经网络模型的典型代表。在DRL中, 将CNN和RNN与RL相结合的算法较多。

CNN是一种多层的监督学习神经网络, 在隐藏层中通过卷积、激活和池化的操作实现图像特征提取的功能, 近年来在数字图像处理领域应用广泛。目前，常用的CNN包括AlexNet[13]、视觉几何组(visual geometry group, VGG)-Net[14]、NIN[15]、深度残差学习[16]等。

RNN的神经元之间的连接形成有向循环, 隐藏层的值既受当前时刻输入值的影响, 也受上一时刻隐藏层值的影响, 这使得RNN非常适合处理具有时间组件的应用问题, 例如时间序列数据和自然语言处理。然而，随着网络层数的加深, RNN常常会出现梯度消失或梯度爆炸的问题[17], 因此有学者提出使用长短期记忆(long short-term memory, LSTM)[18-19]来解决这个问题。LSTM通过合并内存单元, 能够使网络学习在某时刻“遗忘”先前的隐藏状态, 以及在某时刻给定新信息的情况下更新隐藏状态, 所以LSTM能够学习RNN无法完成的长期复杂时间动态。

1.2 RL

1.2.1 RL基本过程

RL又称为增强学习[20], 其核心思想是试错机制, 即让智能体在与环境的交互过程中不断学习和反馈, 以获得最大的累计奖励。通常可以使用马尔可夫决策过程(Markov decision process, MDP)对RL问题进行建模, 表示为一个五元组(S, A, P, R, γ), 其中S代表一个有限的状态集合, A代表一个动作集合, P代表一个状态转移概率矩阵, R代表一个回报函数, γ代表一个折扣因子, 具体的学习过程如图 2所示。