Minghui Wang, Bi Zeng, Quijie Wang. Research on motion planning based on flocking control and reinforcement learning multi-robot systems[J]. machines,2021.9.
multi-robot motion planning system structure
这篇文章采用了La.首次提出的上下层级控制器(相关论文详见上一篇阅读笔记),上层为强化学习行为策略提供,下层为集群控制器,是La系统的一个再发展。
强化学习用以增强机器人的分析、预测和寻找合适动作的能力。控制系统结构如下图所示:
3.1多智能体集群移动控制
集群的定义主要有以下三部分组成:
1)可分性(separability):集群内部防撞;
2)凝聚力(cohesiveness):所有成员收敛到一个平均位置;
3)排列(permutation):每个成员一起想相同位置运动。
集群运动有两种类型:1)无领导集群运动;2)有领导集群运动。这篇文章采用的是主从式。
3.2主从式集群控制设计
整体控制律设计基于人工势场设计,具体过程不多赘述,有兴趣的自己可以取看原文。
3.3队形变换
为了更好的应对突发的紧急情况,需要有队形变换模块。
当编队中的成员势函数出现极大排斥力时,队形需要紧急变为更为安全的队形(例如经过窄缝时,从钻石型变为一纵列),当离开危险环境时,将变回初始队形。
3.4沿墙运动控制
在凹形障碍物等一些有障碍物的复杂环境下,势场很容易陷入局部最优解或振荡点。采用沿墙运动控制,即使机器人只知道局部环境信息,可以避免陷入局部最优问题中。
控制方法如图所示:
公式为:
基于动作的机器人的强化学习算法
基于行为的控制策略需要在运行过程中实时获取局部环境信息来进行运动:向目标运动,避撞和沿墙运动。这篇文章中,强化学习用于解决如何让智能体在与环境交互过程中使用学习策略来获得最大汇报的问题。
这篇文章采用Q-learning算法。
强化学习的价值函数如下定义