博弈对抗AI的一些关键技术汇总

  • 一、作战推演的智能决策核心技术

    具体分类如下图:

    1、强化学习技术框架

    1)强化学习主流算法:

            A)基于值函数的强化学习

            B)基于策略的强化学习

    2)深度学习结合强化学习

            考虑利用深度学习技术来实现态势图像特征的提取,进而最终输出态势图的关键信息将是解决姿势理解的一种办法。

    3)逆向强化学习

    4)分层强化学习

            智能博弈对抗的建模过程面临两个难题,一个是动作空间庞大,另一个是奖励稀疏问题。面对这两个问题,有研究人员提出了分层强化学习的解决思路。该思路的核心是对动作进行分层,将低层级(low-level)动作组成高层级(high-level)动作,这样搜索空间就会被减小。

            其他相关改进是学者在奖赏函数设置、增加分层结构、保持分层同步、提高采样效率等方面改进分层强化学习[

            该方法已在一系列稀疏奖励的任务中表现出色。

    5)多智能体强化学习

            OpenAI使用的是分布异构的多智能体建模思路,每一个智能体都有一个相同的训练神经网络,但是没有全局控制网络。

            AlphaStar则是使用了一个集中的控制网络对不同的单元进行控制。

            还有一种思路是对于每一个智能体,都建立属于各自的神经网络进行训练。

    6)元深度强化学习

            在面临不同博弈任务时,策略模型难以迅速适应,无法准确选择合理的博弈行动。

            目前,元深度强化学习解决博弈对抗问题的关键技术主要有以下4类:

            A)基于参数学习的元深度强化学习方法:通过元学习而不是人工调参的方法获取强化学习算法中的超参数,在线学习超参数的同时调整学习方向,引导智能体学习进程;

            B)基于网络模型的元深度强化学习方法:通过改变网络模型学习任务层的知识,典型的网络模型有循环神经网络(RNN);

            C)基于梯度的元深度强化学习方法:通过对任务分布进行重复采样,利用随机梯度下降法,并将初始参数更新为在该任务上学习的最终参数[19];

            D)基于分层的元深度强化学习方法:经典的分层强化学习目标是对问题进行分解,在分解的若干子问题基础上分而治之,针对的是特定任务,而基于分层的元深度强化学习方法旨在对模型进行分层,底层学习任务中的知识,高层学习任务之上的知识,即元知识,针对的是多个不同但相关联的任务。

            元深度强化学习方法的研究不仅推动了强化学习方法向实用性和鲁棒性转变,还成为未来智能博弈对抗关键技术之一。

    7)LSTM技术结合深度强化学习

            引入长短期记忆(longshort-termmemory,LSTM)网络。让LSTM一次接收多个时间步信息来学习这些时间步之间的关联信息,从而让LSTM帮助智能体学习动作序列组合,也通过LSTM关联历史数据来训练强化学习的神经网络模型。

            这样可以防止出现训练的AI为了某个战术目标而忽视了整体战略目标。

    8)多属性决策结合强化学习

            强化学习的回报值往往根据专家经验手工设置,但是这种手工设置的回报值的收敛性及智能性均难以保证,并且长时间训练才能评估设置的回报值的效果。

    因此可以考虑结合推演数据,结合多属性决策方法进行客观分析,总结提炼出合适的回报值。

            这样有利于提高强化学习训练的智能性,并有利于加快收敛。

    2、其他可用智能决策技术

    1)进化算法

            通过复制、交叉、突变等操作产生下一代的解,并逐步淘汰适应度函数值低的解,增加适应度函数值高的解。

            遗传算法的优势是适合在大规模的空间中进行探索,寻找全局最优解。而强化学习算法随着梯度下降进行优化,很容易寻找到局部最优解,而不是全局最优解。

            因此,如果找到合适的结合角度,遗传算法和强化学习两者结合会有一定的实际价值。

    2)决策树

            决策树方法是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,并判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

            决策树是一种非常重要且常用的建模方法,其易于构建作战实体的行为规则,有利于分析基于决策树的作战实体行为模型,这在作战推演的初期是一种快速建立对手模型的高效办法。

    3)基于规则

            基于规则的AI主要是结合博弈对抗环境的领域知识,构建基于专家经验知识的规则AI。

            利用高水平玩家快速构建基于规则的AI,让agent快速学习有效动作并存入模型中,方便神经网络直接提取有效经验,进而实现强化学习的快速收敛,加快学习进程。

    4)势能统计

            该方法是利用离线和在线统计数据综合分析出智能兵棋推演AI。

            可以尝试将该方法与强化学习结合,弥补强化学习开始阶段训练收敛速度过慢的缺陷,并在强化学习算法执行过程中,结合综合势能进行动作校正,从而生成更加智能化的作战行动序列。

    5)随机森林

            在机器学习中,随机森林是一个包含多个决策树的分类器,并且输出的类别是由个别树输出的类别的众数而定的。

            在智能博弈对抗领域,与随机森林相关的研究其实较少,但是其在一定程度上可以作为训练数据的有效手段,进而弥补一些强化学习算法训练效率较低的缺陷。

    6)人件技术

            在智能博弈对抗环境中,人件技术主要是在专家经验知识中进行考虑,主要利用高水平玩家的数据进行监督学习,方便快速高效地训练出高水平的深度强化学习AI。

            人件技术的核心是在训练过程中融入人的行为偏好,通过人类行为决策数据进行训练,训练出一个初步的模型。而强化学习算法可以直接从初步的模型中提取相关数据,进而能训练出更具有智能性的AI。

    7)统计前向规划算法

            统计前向规划算法使用仿真模型(也称为前向模型)自适应地搜索有效的动作序列,此类算法提供了一种简单通用的方法,为各种游戏提供快速自适应的AI控制。

            MCTS算法最重要的优点是不需要领域特定知识,可以在不了解游戏规则的情况下应用。

    8)小地图设置技术

            在多个智能博弈对抗游戏中普遍存在一个小地图,用来辅助玩家快速了解整体态势。

            在作战推演中智能决策AI的训练也需要设计小地图机制,来辅助深度强化学习智能AI进行训练。

    二、智能体对抗规则建模方面技术

    1、传统博弈智能体模型构建方法:

            传统的基于系统辨识或工程经验的行为建模方法:基于有限状态机、基于规则系统、基于控制论、专家系统、基于层次任务网络、基于案例及基于影响网络等方法,本质上是基于专家领域知识建模,仅适用于简单系统的解析或统计模型。

            这些传统方法虽然计算量小、可解释性强,但对人类隐性知识的表示较困难,无法模拟人类专家和军事人员的决策思维过程,也无法准确描述战争复杂系统的演进过程。

            深度强化学习方法只需对当前系统运行效果评价信息做出反应,具有更高的实时性和鲁棒性。因此,深度强化学习对于解决此类问题是行之有效的。

    2、利用专家知识、历史数据建立智能体对抗规则模型的方法:

            目前,人工智能技术在博弈对抗中能够解决的问题的主要特点是获取数据容易、决策规则完备、对抗规则清晰及评估调优目标明确等,而作战推演类决策问题存在获取数据难度大、决策规则不完备、专业知识复杂、评估调优难度大及信息不完全且不完美等特点,因此进行对抗规则建模成为解决这些难题的基础。

            博弈对抗规则建模需解决以下问题:1)针对作战条令和作战规则等非结构化数据进行建模;2)对高级指挥员大脑中的经验知识进行建模;3)对格式化的历史对抗数据中隐含的对抗经验知识进行建模。

            A)非结构化数据定性到定量转化方面:

                    a)基于云推理模型的定性知识规则生成方法,依据云推理模型对定性规则知识进行表达,对客观世界知识的模糊性与随机性进行形式化表示,将不确定的和模糊的经验知识转化为计算机能够识别的规则,从而实现定性知识到定量知识的转化。

                    b)结合模糊数学理论对博弈对抗中关键特征进行模糊化表示,将文本转化为模糊推理规则。

            B)指挥员经验知识利用方面:

                    a)通过研讨交流及决策过程关键节点提取来辅助决策活动分析。

                    b)通过系统与专家在线交互引导决策模型生成。

            C)格式化历史对抗数据挖掘方面:

                    c)遗传模糊系统可在不完全且不完美信息对抗条件下,利用专家知识初始化对抗模型,采用历史对抗数据对系统进行优化,实现策略规则建模。

                    d)结合典型空战对抗作战样式,利用构建的决策规则驱动智能实体对抗,实现规则驱动的博弈链动态生成。

    三、作战推演技术难点及技术解决方案

    1、冷启动问题——利用专家经验规则知识的技术

            训练过程时间长、难以收敛的情况通常被称为冷启动问题。

            比较有效的解决方案是利用专家的领域知识预先设计固定的先验知识,利用先验知识进行智能博弈训练,进而在强化学习的经验存储中得到高水平的训练数据。在强化学习的后期训练中直接利用这些先验知识对抗出来的经验数据进行模型训练,从而可以有效缩小探索空间和动作空间,进而保证强化学习可以快速训练出高水平的AI,避免了前期盲目探索的情况。

            在实际作战推演过程中,也可以考虑使用高水平指挥员的先验知识,提前进行形式化存储,进而在强化学习训练过程中导入先验知识,加快训练结果的收敛,得到较高水平的智能AI。

    2、过拟合问题

            在智能博弈对抗过程中经常会出现训练一定阶段后陷入局部最优结果的情况。

            为了避免这种情况的出现,可以采取以下几种方式:

            A)应该在算法设计中加入随机可能性,在一定比例的动作选择概率下随机探索,而不是完全按照强化学习算法给出的结果进行执行。

            B)按照贝尔曼方程,应该在奖励函数设计过程中,考虑当前影响和未来影响的可变比重,即回报函数设计包括一定的可变性,而不是固定不变的。

            C)利用强大的计算力,生成大量新的对手,从不同方面与需要训练的agent进行对抗,从而避免因为固定对手而导致的过拟合现象。

    3、想定适应性问题

            在两种具有一定相关性的任务中可以通过迁移学习可以将已经学到的模型参数通过某种方式分享给新模型,从而加快优化模型效率。此时可以采用一些方法来推断环境中重要的地点等元素:

    a)基于遗传模糊系统的关键地点推理技术:

            遗传模糊系统是遗传算法与模糊系统结合的一类模型。该模型既可以依托模糊系统建模专家知识,又可以借助遗传算法挖掘经验数据中的可靠信息,是一种能够同步应用知识和数据的方法。在应对少量数据学习的问题时,该方法能够尽可能地利用人类专家知识,从而实现更好的训练效果。

            自动推理作战任务的关键地点可以实现自主任务规划,提高作战任务规划的泛化能力。

    4、智能蓝方建模——态势感知技术

            智能蓝方建模主要是在具有战争迷雾的情况下,对对手进行建模,并预测对手的未来动作。

            对手建模可分为隐式建模和显式建模。其中隐式建模直接将对手信息作为自身博弈模型的一部分来处理对手信息缺失的问题,通过最大化agent期望回报的方式将对手的决策行为隐式引进自身模型,构成隐式建模方法。显式建模则直接根据观测到的对手历史行为数据进行推理优化,通过模型拟合对手行为策略,掌握对手意图,降低对手信息缺失带来的影响。

            对手建模技术是智能博弈对抗是否有效的关键,只有建立一个可以高效预估对手行为的模型,才能保证智能博弈AI的有效性。对于建模的方法可以从图像处理技术中借鉴,如:

    a)基于数据补全的态势感知技术:

            兵棋态势信息可以看作一张或多张图片,因此考虑将图像领域中的数据补全技术迁移到兵棋态势感知领域中,根据部分态势补全完整的态势信息,揭开战争迷雾。其中,条件变分自动编码机(CVAE)能够根据特定的前提条件,随机生成特定类型的图像。神经高斯过程(NP)是对CVAE框架的发展,其将图片的已知信息作为概率预测的条件,对图像未知的部分进行多样性预测。

    5、路径规划问题

            已有的路径规划算法主要以A-Star算法、Dijkstra算法、D*算法、LPA*算法、D*lite算法等为典型代表,在物流运输、无人驾驶、航空航天等领域都取得了显著成效。同时也有学者提出其他的路径规划算法,如基于神经网络和人工势场的协同博弈路径规划方法等。

            但是在智能博弈的环境下,需要考虑的问题更加复杂,需要进一步对这些算法进行改进优化。

    四、一种空战作战推演的高动态博弈对抗模型建立方式:

            1)通过在智能体策略学习过程中引入军事领域中的条令条例、战法战例等规则知识,提高策略学习过程中探索和利用的效率;

            2)利用对手的条令条例、战法战例等构建对手规则,提升对抗学习的针对性;

            3)结合多模态深度神经网络的空间态势感知技术,对空战对抗过程中的雷达、红外和飞控等数据采用不同预处理方法,并共享决策神经网络,尽可能覆盖决策因素,实现对战场态势的多维感知建模;

            4)为了避免过度依赖领域知识,利用逆向强化学习、数据增强和元学习等小样本数据学习方法,获取高水平对抗数据背后的决策考量,加速学习算法收敛;

            5)在强化学习过程中引入专家在线评价,将蕴含人类专家对任务目标理解的评价结果应用于学习中,对回报函数进行重构,从而提升反馈的实时性和准确性。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

岂止是狼子野心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值