基于大模型的态势认知智能体

本文提出了一种基于大模型的态势认知智能体,以解决战场态势信息复杂、变化趋势难辨的问题。通过构建学习环境、记忆方式和产生知识机制,智能体能在仿真环境下推演战场态势并预测发展趋势,为决策提供支持。研究还探讨了大语言模型、多模态模型和大序列模型在智能体中的应用。
摘要由CSDN通过智能技术生成

源自:指挥控制与仿真

作者:孙怡峰,  廖树范,  吴疆  李福林

“人工智能技术与咨询”  发布

摘要

针对战场态势信息众多、变化趋势认知困难的问题,提出基于大模型的态势认知智能体框架和智能态势认知推演方法。从认知概念出发,结合智能体的抽象性、具身性特点,明确了智能体构建的3个关键环节:学习环境、记忆方式和产生知识机制;设计了战场态势认知智能体架构,包括记忆部件、规划部件、执行部件、评估部件以及智能体训练要点。在长期记忆部件中,围绕战场复杂状态建模特点,分析大语言模型、多模态大模型、大序列模型的运用问题。

关键词

大模型; 态势认知; 智能体; 通用人工智能

态势是现实世界中人们关注的事物状态及可能出现的变化。军事领域中,战场态势是指战场环境与兵力分布的当前状态和发展变化的趋势[1]。战场态势感知是对敌情、我情、战场环境所处状态的感知以及对作战进程变化的理解,是实施作战指挥决策的基础支撑。当前,战场态势信息来源分散、复杂高维、实时快变、多元异构,信息的碎片化、片面化、不确定性问题严重,准确把握变化的趋势对指挥员或指挥机构也越来越困难。

针对上述问题,文献[2]通过改进加权平均法及优化小波变换完成数据与图像融合处理;文献[3]将数据分析和数据展现技术运用于态势感知,然而当前战场态势的信息量已经达到海量级别,超出了人类认知极限,容易导致片面的战场态势感性认知。文献[4]基于卷积神经网络提取复杂战场环境特征;文献[5]在战场态势感知中使用注意力机制,生成围绕作战目的和作战任务的态势认知;文献[6]探讨将表示学习、深度学习、强化学习和群体智能等用于态势认知。最近,人工智能中的大模型技术发展迅速,一定程度建模了世界通用知识。基于大模型的自主智能体[7-8]表现出了较强的认知环境、适应环境的能力,给战场态势感知带来了新的启发。

本文提出利用大模型构建态势认知智能体,智能体在仿真环境下推演学习复杂态势规律,构建从战场之“态”到预测战场之“势”之间的复杂映射关系知识。态势认知智能体与AIGC(Artificial Intelligence Generated Content)一样,有望生成多种态势的发展路径,供使用人员最终决策。

1 智能态势推演认知与智能体

1.1 战场态势感知与智能推演认知

传统上,通过物理传感器、人体感官观察或远距离操控无人化情报监视侦察平台直接收集战场信息,这对应着第1级态势感知。在获取丰富信息的情况下,作战指挥人员能否有效吸收和理解这些复杂的海量信息、预测对手(目标)意图、识别对手行动样式,这对应了第2级态势感知。基于知识预测发展趋势,这是第3级态势感知,例如预测对手兵力部署、评估对手行动的威胁性和作战意图的变化。态势感知的第2级和第3级本质上属于认知范畴,也将其称为态势认知[9]。作战指挥人员的认知并非完美,经常存在“执着信念”,也就是可能存在所谓认知偏见。这在战场上将导致高估威胁或者低估威胁的情况。作战指挥人员若高估威胁,将可能为获取更多信息而不必要地减缓行军进度;作战指挥人员若低估威胁,将可能在缺乏充足信息的情况下逼近敌军,从而更易遭受攻击[10]。随着信息技术的快速发展,机器辅助作战指挥人员进行态势认知成为重要的发展方向[11]。

机器辅助人类态势认知可以分为基于假设检验的态势认知、面向体系对抗的多层次综合认知、基于推演预测的态势认知等不同层面[9]。基于推演预测的态势认知将对敌我行为进行分析,产生主要的态势分支,同时按行为规则、交战规则等超实时仿真推演结果,预判每个分支对手的行动与对我方可能的威胁。本文的智能态势推演认知就是指借助人工智能最新技术,让机器像人一样根据现有作战知识,依据战场的“态”组合敌我“合理”行动路线,全自动推演作战结果。

1.2 认知与智能体

智能认知战场态势中的“认知”一词来源于认知心理学,需要模仿生物认知过程。文献[12]认为“认知是一个自治的系统感知周围环境、从经验中学习、预测事件结果、采取行动追求目标并适应不断变化的环境的过程”。自治的系统也称为智能体(Agent)。这一概念起源于哲学,其根源可追溯到亚里士多德和休谟等思想家,它描述了拥有欲望、信仰、意图和采取行动能力的实体[13]。这个概念应用到了计算机科学中,旨在使计算机能理解用户的兴趣并自主地代表他们采取行动。智能体可指生物智能体,也可指具有一定认知能力的软硬件实体。在智能体的认知构建中,有两个重要理念:抽象性和具身性(embody)[12]。首先,所有系统都可以放在不同的抽象层次上进行考察,依次删除较高层次的具体细节,只保留重要的部分。其次,在一定抽象层次上,系统通过在环境中的操作来建构自己周围的世界及其知觉与行动。系统对周围世界的理解因具身而异,依赖于系统的历史经验。

智能体形成认知要具备以下条件:

1)智能体需要具有学习环境。

环境包括物理环境和虚拟环境。物理环境指的是我们周围真实存在的环境,包括各种物体、场所、材料等。传感器和测量设备可以感知和测量物理环境,并将环境信息转化为数字信号,通过将数字信号建模得到虚拟环境。虚拟环境一定是特定抽象层次下的物理世界的反映。

2)智能体需要有记忆方式。

传统知识编码采用符号体系,但其存在不完备、更新不灵活等问题,存储多采用数据库方式。智能体近年取得较大进展:2014年,DeepMind推出了引发全球热议的围棋机器人AlphaGo;2017年,OpenAI推出了“Dota2”游戏智能体OpenAI Five;2019年,DeepMind公布了用于“星际争霸 2”的AlphaStar智能体。它们都能根据实时接收到的信息来安排和规划下一步的操作,具备了构建认知的基本形式。

3)智能体需要产生知识的机制。

智能体需要通过学习,形成在神经网络中记忆的知识。在游戏环境下,AlphaStar通过经验数据和试错强化学习获得基本对抗知识;通过博弈学习获得高阶的“获胜”知识。这种知识往往是在特定环境和特定架构下获得。特定架构限定了智能体的输入和输出,也就是限定了抽象的层次;特定环境决定了智能体的具身特性。智能体认知的范围由环境决定。

大型语言模型(Large language models, LLM,简称大模型)[14]表明,借助强大的计算设施,在自标注预训练以及指令精调(Instruction Tuning)机制下,形成的知识呈现涌现特性,也就是零样本推理能力(Zero shot),能应对“意料”之外情况,甚至能形成特有的语言体系,编码之前研究人员也难以准确刻画的知识。

1.3 智能体战场态势认知构建

智能态势推演认知需要构建虚拟的战场对抗环境,由智能体全自动估计敌方可能的作战任务企图以及我方采取的作战行动,对敌我双方行动进行动态组合,生成未来时刻可能的态势推演分支,基于交战态势超实时仿真推演结果。因此,智能体战场态势认知构建要完成3方面的工作:

1)构建智能体依存的具身环境。

研究人员首先要设计战场态势的数字化表征,并决定需要认知的内容,如下一步到达的位置,然后构建能够同时支持计算机推演和人工推演的战场数字孪生体。计算机兵棋系统就是战场数字孪生体的雏形。它有一定的抽象层次,为具身认知提供基础。计算机兵棋系统经过人工推演形成初始序列数据,可用于形成模型预训练的初始自标注数据,或者作为博弈对抗的对手。

2)设计智能体框架。

近年来智能体快速发展,Weng在文献[15]中给出了基于大模型的AI Agents框架:智能体=LLM+记忆+规划程序+工具使用,如图1所示。记忆最为重要,包括长期记忆和短期记忆。LLM中编码的知识以及存储在数据库中的信息属于长期记忆。对LLM中的知识,需要通过输入提示词(Prompt)获得;对存储在数据库中的信息,可通过关键词检索进行访问。程序规划根据嵌入(embedding)表示的外界感知,即感觉记忆(Sensory memory),组合成合适的Prompt,用于当前规划。Prompt也被称为工作记忆。感觉记忆和工作记忆都属于短期记忆。工作记忆通常是有限的,受到LLM的Transformer类神经网络[16]有限上下文窗口长度的限制。

图片

图1 Lilian Weng的智能体框架[15]

将上述智能体框架在智能态势推演认知问题上进行适配和改造,得到用于战场态势推演认知的智能体框架,如图2所示。它包括了记忆部件、规划部件、执行部件和评估部件。传感器在一定时期内获取的战场状态,可类比为LLM中的token,经嵌入编码后作为输入,也就是前述的感觉记忆,由规划部件组合后形成Prompt,即工作记忆;然后采用类LLM的多组Transformer块结构处理输入的工作记忆,并单独设计解码输出单元。解码输出单元与对手目标意图等态势认知内容相对应。Transformer块对应长期记忆部件,通过一定战场状态工作记忆输入唤起对抗策略知识。智能体还可将数据库中的信息作为长期记忆单元,存储智能体风格、战场环境等相对固定信息。

图片

图2 态势推演认知智能体框架

规划部件主要是指为达到作战目标而进行任务规划的单元。它可决策输出各兵力下一步要执行的行动,例如到哪个点位部署等。规划部件可以扮演己方,将当前数字化的战场状态形成工作记忆,由大模型解码得到己方力量的部署点位概率(己方任务)。规划部件还可以模拟对手,根据态势输出对手各个力量部署点位的概率,即进行第3级对手目标意图的推测。

评估部件根据己方方案和对手目标意图推测,获得战场态势的发展走向,辅助作战指挥人员最终的态势认知。此外,评估部件还要进行“认知”概念中的发展与学习。态势认知智能体还面临着潜在变化的对手,它必须根据推演总结进行记忆更新。评估部件在对抗开始前可以利用虚拟环境,以仿真方式观察当前知识水平下规划部件和执行部件的效能,即“心里推算”,根据仿真结果学习修正记忆部件中存储的战场“态与势”知识;在对抗结束后,还需要根据真实战场态势的数据再次修正长期记忆。

执行部件执行己方规划的子任务。这包括了使用各类军事模型进行运筹计算,得到战术场景下的最佳行动执行效果。例如,前面已经规划按某部署点位进行机动,在执行部件中就需要使用A*路径搜索等外部算法工具获得到达部署点位的路径。执行部件还能根据评估部件的学习结果不断修正外部工具的使用,比如修正A*算法启发式搜索中的路径评价标准。

3)充分训练智能体。

态势推演认知智能体的评估部件非常重要,需要通过它充分训练智能体,以确保记忆部件中的知识与指挥员的意识、伦理和战场基础知识相适应。训练智能体的过程如下:第一,可以根据已有的推演数据,使大模型的多组Transformer块和解码部分进行模仿学习,形成最初步的态势知识;第二,可以利用规划部件和执行部件,实施强化学习和博弈学习,不断增强上述长期记忆部件的知识水平;第三,可以利用真实的战场状态、情报的预判结论、交战的结果,再次进行模仿学习,增强长期记忆部件中的知识。

2 大模型运用实验

2.1 大型语言模型运用实验

当前智能体主要运用LLM作为其长期记忆,已经能够完成一定的任务。表1给出了比较知名的智能体、运用的LLM及其适用任务。在这些智能体中,任务目标和环境状态都是用自然语言进行描述,输入LLM后,唤醒LLM中存储的知识,推理输出任务实施的分解步骤即若干个规划,对规划进行评估后按可行规划实施。规划实施后,智能体依据环境反馈微调形成工作记忆的方法,甚至微调LLM,不断适应环境,认知环境。

图片

表1 智能体选用的LLM及其适用任务

本文尝试使用通用LLM作为推演认知智能体的长期记忆部件,规划部件简化为直接使用LLM的输出作为下一步的对手行动任务,以此开展实验。目的主要是检验本文所提智能体进行态势预测的可能性,对使用虚拟环境进行“心里推算”和对抗结果“反馈学习”修正大模型,这里不再进行。图3给出了某大模型的智能体战场态势预测实验。智能体采用自然语言描述战场态势,如图3a)所示,战场态势由初始时利比亚(简称利军)兵力部署、美军兵力及武器平台部署构成,战场环境体现在部署处所,例如“的黎波里阿齐齐亚其住所兵营等”。这里假设己方为利军,根据当前知道的美军情况、利军力量情况及战场情况的自然语言描述构建Prompt,由大模型中的知识进行下一步的推理,得到对手美军下一步的行动预测。

图片

图3 构建Prompt并由大模型预测蓝军(美军)行动

从图3b)可见,某大模型能够根据初始的态势,预测对手美军武器平台的任务分配,如“F-111F战斗轰炸机和EF-111A电子战飞机各分配一半兵力,进行……”。因为大模型具备的知识还比较宽泛,所以预测出的武器平台任务还比较宏观,缺少具体武器平台任务说明。

针对图3b)中美军的行动,智能体进一步生成Prompt提问大模型,如图4a),让其生成己方利军的应对方案。从此实验看出,大模型作为智能体的长期记忆部件具备了一定的态势预测能力,但根据其预测还不能实现基于推演预测的态势认知。理想中,基于推演预测的态势认知能够进行多阶段多分支预测,可以锁定推演空间,辅助指挥人员更有针对性地准备己方应对策略。图4b)中的应对方案还比较笼统,难以依据其进行有效分支推演。

图片

图4 针对美军方案大模型预测的利比亚应对措施

2.2 其他大模型运用讨论

上述实验使用文本描述战场态势,难以描述战场状态的细节,因而预测的对手行动也比较笼统。通用态势图方式呈现的战场状态可视性强,便于理解和把握细节。多模态大模型就是在自然语言模态序列的基础上,增加了图像、语音等其他模态数据,力求能够同时处理和理解来自不同感知通道(视觉、听觉、语言和触觉等)的信息。引入多模态大模型加强对态势图的理解,是改变智能体仅采用自然语言表征战场状态不足的一种思路。本文尝试将经典战例中的态势图转为图片,连同自然语言描述的兵力预测要求一起作为prompt,输入某多模态大模型。也就是将某多模态大模型作为智能体的长期记忆部件,智能体的规划部件还是直接采用多模态大模型输出来获得蓝方下一步行动,所做的实验如图5所示。在态势图的帮助下,对美军兵力下一步行动的预测更为具体,例如“美18空降军和阿拉伯联合部队会向巴士拉方向前进”,这有助于实现基于推演预测的智能体态势认知。

图片

图5 态势图和自然语言作为Prompt及其输出

目前还有一种解决自然语言表征战场状态不足的思路是使用大序列模型作为智能体的长期记忆部件。大序列模型是指经过训练后用于捕捉序列决策中状态动作序列间长距离依赖关系的大型Transformer类神经网络。序列决策是指在环境中依据环境状态推断最大长期回报动作序列的过程。通常将t时刻环境状态记为st,该时刻智能体采取的动作记为at,这样 

图片

构成具有长距离依赖关系的序列。战场状态和双方行动构成的序列理论上可采用大序列模型建模其中的依赖关系。预测战场态势就是用大序列模型预测蓝方行动序列,战场态势智能体认知就是智能体在虚拟环境下创建战场序列数据,训练大序列模型,构建战场状态与行动间映射知识的过程。作者在文献[17]中给出了大序列模型的设计思路,主要解决了战场状态序列分割构成Token的问题,但大序列模型的训练还需要进一步研究。

3 结束语

态势感知的第2级和态势感知的第3级对进行作战决策具有重要的意义。它们本质上属于认知科学中的认知范畴。从认知产生的角度,作者提出了战场态势认知智能体的构建方法,设计了记忆部件、规划部件、执行部件和评估部件,探讨了大语言模型、多模态大模型和大序列模型在战场态势智能体中的运用。

本文基于大模型构建战场态势认知智能体是一个初步的想法和尝试。作者需要指出的是,对抗仿真环境往往决定了知识的抽象层次和具身特点,与生物智能体相比,特别是对作战指挥人员而言,认知智能体获得知识的灵活性仍有欠缺。后续的研究重点是聚焦如何进一步提升态势认知智能体知识的通用性和快速构建训练智能体长期记忆部件的数据。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

“人工智能技术与咨询”  发布

  • 17
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值