人工智能系统用于作战的局限性:任务规划

RAND的报告显示,尽管人工智能在小范围问题上如自动驾驶和航路规划表现出色,但在复杂的军事任务中,如对抗敌方防空系统,OR方法通常提供更低风险的路径。ML模型虽然在适应性和快速决策上有优势,但路径长度和安全性方面不如传统优化方法,且训练时间较长。
摘要由CSDN通过智能技术生成

今天分享的是人工智能系列深度研究报告:《人工智能专题:人工智能系统用于作战的局限性——任务规划》。

(报告出品方:RAND)

方法

AlphaStar证明了人工智能(尤其是RL)可以擅长于小范围的问题。路线规划是人工智能在民用领域取得成功的一个领域,自动驾驶汽车和自动驾驶仪12正确的航路规划可以将飞行员和系统的风险降到最低,减少敌人对美国资产的了解,并增加任务成功执行的可能性。

虽然只是所有航路规划的一个子集,但针对单个包裹穿透敌方领空的规划包含足够的元素,以满足足够的复杂性(敌方阵地和多条可行路线),而不会使读者或我们自己超载(例如,动态的敌方阵地)。这也是空军部(DAF)经常遇到的场景,因此,可能值得实施,因为人工智能模型的前期成本相对高于训练人类完成任务,但人工智能模型更容易扩展到大规模。使用之前的RAND内部模型,我们探讨了将AI应用于此应用程序的可行性,比较AI性能对优化方法,并评估这种方法的局限性。在这份报告中,我们比较了一个纯粹的优化方法与纯RL方法的任务规划。涉及这两种方法或在流程中包括一个有经验的人的混合解决方案可能会产生更好的结果。

RAND目标可达性模型调查

我们使用了一个专有的模型称为兰德目标可达性模型(RTAM),以检查ML模型训练穿透敌人的防空系统,并达到目标点相比,运筹学(OR)优化功能,旨在实现相同的目标。我们对ML方法在绝对和相对基础上的弱点很感兴趣。考虑到现代机器学习改进的速度、历史的经验教训,甚至在非常大和昂贵的最先进的模型上实现规模化的正回报,我们不愿将当前的任何限制描述为永远不可能。

然而,通过检查玩具系统中的相对优势和劣势,应该有可能确定哪些任务人工智能在性能上会相对更好或更差。只要ML中的当前范式--神经网络-继续领先,这是一个有点安全的推断。当前范式的终结将是非常明显的,只要它看起来继续成立,这就是一个可以使用的安全假设。

在我们的分析中,OR方法几乎每次都能找到比ML模型更好的路径。我们还发现ML模型需要更长的时间来训练。这不仅仅是一个计算机时间的问题:模型的训练时间越长,意味着指定的效用函数需要更长的时间来解析。然而,我们看到机器学习在适应性方面的优势:它可以根据新信息更快地做出决定。这在高度不确定性的条件下特别有价值:遇到敌方资产的可能性更大,因为它们无法避免,但也更有信息量,因为遇到敌方资产提供了更多关于其位置的信息。

量化运筹学与机器学习性能:经验风险

我们采用了几种方法来描述这两种方法之间的差异。图2.3和图2.4显示了OR进近和ML模型检测敌人半径的时间总和。当飞机从大西洋中部的纬度和经度分别为34.86度和-61.85度的起始点开始飞行时。这些起始位置在图2.3和2.4中用一个黑色菱形表示。其他点代表的目标位置分散在整个CONUS,并通过一个不同的危险水平的路径达到代理人穿过,或周围,预警雷达的威胁。在大多数情况下,OR方法产生一个较低风险的选项(从这个特定的起始位置)到每个目标,范围在0和2.76之间。相比之下,ML模型的风险水平延伸高达8.18的目标在遥远的西边的CONUS。

蓝色目标位置指示ML模型在风险水平方面优于OR模型(以橙色显示)的位置。ML仅在16%的测试地点做得更好,风险水平平均比OR水平低0.5。ML模型在接近更近的目标和更直接的路径上的起始点时往往表现更好。

以其他两种方式提供相同的数据,以进一步说明ML模型在该领域的局限性。ML模型的风险级别以蓝色显示,0R模型的风险级别以橙色显示。

两种模式下所有1376个目标地点的风险水平叠加直方图显示出明显的差异。正如预期的那样,大多数OR模型风险级别低于ML级别。ML表现较好的目标的16%被发现在两个直方图的重叠部分内。ML模型也有一个更平坦的分布,相对更不寻常的风险和不寻常的安全路径。OR模型的非常高的峰值代表了一种更稳定的方法。

最后,使用散点图格式显示了给定目标的两个风险水平如何相互比较。

蓝色的目标位置对应于ML做得更好的点,并且适当地位于45度等效线之下分布的平坦度现在是沿轴向的垂直分布比水平分布大得多。有趣的是,这两个模型的风险水平之间并没有特别强的关系:OR方法是否能找到一条好的路径,似乎与ML模型是否能做到这一点关系不大。

路径长度效用函数的另一个关键变化因素是代理人到达目标的路径长度。更短的路径需要更少的时间,使用更少的燃料,造成更少的磨损。我们训练的机器学习模型倾向于选择更直的路径,在进行适度调整以避免敌人发现的情况下,直接朝着目标前进。在仿真环境中,我们使用的代理,速度是恒定的,所以路径长度和总飞行时间是等效的。

两个目标是彼此接近的距离可能会导致实质上不同的路径长度的入口。另一方面,ML模型具有更直接的朝向目标的轨迹,总体上导致更短的路径,但风险更高。这些结果让人联想到AlphaStar:速度优势得以保持,而不是采用复杂的战略和反应,而是采用在当地参与方面具有高超技能的暴力方法

在我们的测试中,OR方法几乎总能找到比ML方法更有效的解决方案,正如我们的效用函数所定义的那样。然而,ML有两个优势。首先,ML想出的解决方案要快得多。*要生成一个新的路径,以响应我们使用的硬件上的意外威胁,OR方法将需要几秒到几分钟,这取决于地图的粒度歧视.17ML方法在每一步都从可见世界生成一条新的路径,只需要几毫秒的时间。

第二,OR方法通常会找到非常精确和小心的路径,而ML方法会摆动。这导致ML方法产生更强大的路线与更高的容忍不确定性。例如,在现实世界中的风可以导致飞机偏航(设置飞机的角度与地面净运动的方向不同),和ML方法能忍受这种转变。注意,我们训练RL算法来应对弹出的威胁(当先前未知的预警雷达突然出现在飞机前面时)和不确定的雷达位置(在每个模拟中,雷达位置是在稍微不同的位置产生的)。

报告来源/公众号:【海选智库】
本文仅供参考,不代表我们的任何建议。海选智库整理分享的资料仅推荐阅读,如需使用请参阅报告原文。

  • 16
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值