基于人机协作的无人集群搜索方法研究

本文研究了在不确定场景下,基于人机协作的无人集群搜索方法。通过构建动态规划问题模型,提出了一种基于顺次分配的动态规划算法,该算法在解决多Agent系统的搜索路径优化问题上表现出优越性能。仿真实验显示,相较于快速探索和试触探索算法,提出的SADP算法在回报值、运行时间、探索次数和咨询次数等方面具有优势,尤其在方案空间扩展性和参数敏感性方面表现出良好的适应性。
摘要由CSDN通过智能技术生成

基于人机协作的无人集群搜索方法研究

人工智能技术与咨询

点击蓝字

关注我们

关键词: 无人集群 ; 人机协作 ; 动态规划 ; 多Agent系统

摘要:

  人与机器人交互是当前一项研究热点,人与无人集群协作搜索是人机交互的典型场景,通过结合人的复杂推理能力和无人集群的重复精确执行能力以完成更为复杂的任务。以不确定场景下高价值目标搜索为背景,给出了人与无人集群协作搜索问题概念定义;为描述多Agent系统如何在人工辅助下进行选择目标区域进行探索,构建了一种先验态势不确定情况下多Agent动态规划问题模型;提出了一种基于顺次分配的动态规划算法。并对该方法进行了仿真实验,实验结果表明:该算法性能明显高于基准算法。

引言

   无人技术的快速发展使得无人集群逐渐成为人类的合作伙伴。人机交互系统[1]是由指挥员与机器人组成的复杂系统,他们相互协作以实现一个共同的目标。本文聚焦人机交互的一个子类,即指挥员与无人集群协作搜索问题。无人集群是由多个无人平台组成的群体,如无人机集群、无人车集群[2-4]。在无人集群自动规划领域,无人平台会根据其当前状态和附近环境,与相邻无人平台相互交互以及自己的局部控制规则进行自动规划。人机交互系统在未知远程环境和高度非结构化的任务中具有卓越性能,能够减少人员工作量,完成单个无人平台无法完成的任务,且具有更高的故障鲁棒性和可扩展性。现如今,人机交互的性质也发生了变化,由单人与单无人平台协作逐渐发展为多人与单无人平台交互、多人与多无人平台交互、单人与多无人平台交互[6]。一般根据自动化层级来描述机器人自主程度[7],10级表示机器人具有完全自主能力,而1级表示人类需要操控所有行动。现有机器人技术远未达到10级,因此仍需要人为干预来完成复杂任务,例如进行更高级的推理和决策。

   一些学者对人与无人集群协作问题进行过研究。Aamodh提出了一种协作框架,在框架中指挥员能够控制集群的形状和编成[8]。Shishir研究表明适当的人与无人集群协作可以使无人集群受益,从而能够更好地达成目标[9]。指挥员与无人集群协作方式很多,其中一种是指挥员向无人集群提供辅助消息。在很多情况下指挥员能够根据经验或其他消息途径为无人集群提供消息,消息可能降低信息的不确定性,从而降低无人集群决策的复杂度,进而提高系统整体性能。事实上,从指挥员获得所需信息的最直接方法是遇到情况直接询问。假设无人集群具备较高自主能力,能够自己完成任务,偶尔会得到指挥员的支持。指挥员作为消息提供者,主要提供信息状态和决策行动2种方式。作为信息状态提供者,常见的问题框架是HOP-POMDP(human observation provider partially observable markov decision process)[10]。HOP-POMDP考虑了Agent在规划决策时能够咨询指挥员,通过咨询获得必要信息,但指挥员可能提供非完整信息,且不一定能实时响应。作为决策行动提供者,常见的框架为MU-POMDP(model uncertainty partially observable markov decision process)[11]。MU-POMDP考虑了转移函数、观测概率和回报值不确定的规划过程,Agent向指挥员询问一系列“是/否”问题或者描述行动列表,然后由指挥员确定采用何种行动。上述问题模型与本文提出的问题框架有所不同,因而其求解算法无法有效地应用于提出的搜索问题。

    人与无人集群协作决策可以抽象为一种方案空间探索问题。假设存在很多备选目标区域,无人集群选择其中若干区域进行搜索,方案可以认为是无人平台搜索一个目标区域的过程,所有方案的集合称为方案空间。方案空间越大,越有可能包含最有价值的目标。对于方案空间搜索问题,通常将其抽象为一种目标优化问题。根据目标的数量,可以将优化问题分为单目标优化和多目标优化。为了便于分析,多个目标可以整合为单个目标。现有研究中,每个方案的回报值是确定的,可以直接得到而无需经过复杂计算。目前普遍采用帕累托最优方法,如NSGA-II(non dominated sorting genetic algorithm II)和NSGA-III(non dominated sorting genetic algorithm III) [12-13],以及这些算法的扩展算法。这些算法适用于输入输出关系确定的问题中,但难以有效解决本文的问题框架,即无人集群的行动可能产生大量的、甚至无穷多的不同数值的搜索问题。指挥员首先需要确定拟探索方案的先后顺序,然后在已搜索的方案中选择最有价值的若干方案。换句话说,问题的目标是寻找到最优搜索路径,以保证在有限时间和资源内寻找到最优方案。该问题类似于旅行商问题[14-15],最优搜索路径的计算复杂度为O(n22n)O(n22n),其中n表示方案空间中的方案数;但又不同于旅行商问题,本文考虑的路径优选问题中每种方案的价值服从某种分布,准确的价值在方案被探索之前是未知的。考虑到搜索目标需要耗费一定代

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值