human-UAVs teamwork: task planning and deep reinforcement learning

最近在看human-UAV协作的文章,找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agent-based task planning and deep reinforcement learning for human-uavs teamwork

1. 主要内容:文章中采用协同设计的方法来分析任务所需的认知能力,并设计UAV或human的异质队友之间的相互依赖关系,以实现协调一致的协作

2. Contributions

面向human-UAV透明协作的混合自主协同框架,以团队工作为中心的框架;

基于可解释的agent的任务规划期→自主生成human-UAV协同计划;

深度学习方法→学习动态环境中考虑敌方威胁的种群行为和路径规划的最优策略。

3. human-UAV协作的可解释框架

1)协同设计模块

该模块分析human或UAV在联合活动中队友之间的相互依赖关系

Q1:该依赖关系是否包括UAV与human之间的依赖关系

2)基于agent的任务规划模块HATP

使用面向对象的编程语言

实体,代理,属性,method,action 

将问题细化为计划树,并对计划树进行计算与修建

Q2:如何分解任务以及每个代理的行动的时间线

3)深度学习模块

通过深度强化学习解决固定翼UAV的leader-follower集群问题

a. 群体行为的深度学习CACER

MDP→CACER Continuous Actor-Critic algorithm with Experience Replay

CACER→3个Dense层→每个Dense层后面是一个ReLu函数激活函数

MLP MultiLayer Perceptron→表示状态空间映射到动作空间的actor

critic更新规则→TD预测

总结:确认基于强化学习的群体行为的模型

b. 一种无人机路径规划的深度强化学习→避免潜在威胁

情况评估SA→UAV路径规划器的前端功能

RGB模型→提出SA模型的结果,并根据RGB模型构建态势图

Q3:为什么使用RGB模型?

MDP模型在离散空间中构造

Dueling Double Deep Q-network D3QN→评估UAVstate-action价值函数

深度强化学习→惩罚或奖励→塑造代理行为:优先获得生存率or提前完成任务

c. Mixed-initiactive action selection

提出了一种结合符号任务规划和深度强化学习的混合主动行为选择模式

human-UAV控制界面对MAV进行人工控制,UAV可以跟随MAV成群飞行,也可以做出合理的决策

利用基于智能体的规划和深度学习的结合,设计了一种混合主动的人机协同任务选择范式

human-UAV协同的模式:

自治模式:每个代理都遵循HATP计划以及学习到的群集和路径规划政策;

跟随模式:人工监督任务的执行过程。UAV只需遵循human的指令即可;

混合启动模式:UAV评估潜在的威胁并提醒human注意潜在的威胁。

4. 实验

a. 任务环境

Unity实时开发平台

两架单任务侦查UAV+两架多任务UAV+一架多任务MAV

默认情况下,任务以自主模式启动,通过点击相应的按钮,可以激活多种模式

b. 基于agent的任务规划

UAV任务:search,surveillance,execution,BDA战斗区域毁坏评估

MAV任务:assignment,route planning,locate,confirm

Q:对于locate行为,不可通过UAV进行执行,然后借由通信模式,传递给MAV?

注:leader行为是由其操作者决定的,leader通过无线通信广播与follower进行通信

在整个任务中MAV具有监视任务执行过程的核心作用

c. 深度强化学习和混合主动行为选择

CACER测试学习到的群集行为

根据任务要求生成leader的动作,follower使用学习到的策略跟随leader

实验对比:CACER群集算法,基于DRL算法的DDPG,贪婪算法,模仿策略

D3QN算法训练UAV路径规划器

三、总结

1)文章中提出了一种可解释的human-UAV透明协作的框架

2)基于agent的任务规划器,一个复杂任务可以被分解成一系列可执行的子任务,规划结果以图形形式显示出来,以显示任务是如何分解的以及每个代理动作的时间线

3)设计一种深度强化学习来学习动态环境中考虑敌人威胁的群体行为和路径规划的最优路径

对这篇文章,作者使用human作为操作员,对MAV与UAV之间的协作进行描述,这种方式中,实际上human是作为leader,MAV与UAV作为follower,其二者皆由human进行决策

本文为个人阅读笔记,部分内容不完善,也有可能有误

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值