【文献学习】基于动作规划和强化学习的多智能体集群

Minghui Wang, Bi Zeng, Quijie Wang. Research on motion planning based on flocking control and reinforcement learning multi-robot systems[J]. machines,2021.9.

multi-robot motion planning system structure

这篇文章采用了La.首次提出的上下层级控制器(相关论文详见上一篇阅读笔记),上层为强化学习行为策略提供,下层为集群控制器,是La系统的一个再发展。
强化学习用以增强机器人的分析、预测和寻找合适动作的能力。控制系统结构如下图所示:
在这里插入图片描述
3.1多智能体集群移动控制
集群的定义主要有以下三部分组成:
1)可分性(separability):集群内部防撞;
2)凝聚力(cohesiveness):所有成员收敛到一个平均位置;
3)排列(permutation):每个成员一起想相同位置运动。
集群运动有两种类型:1)无领导集群运动;2)有领导集群运动。这篇文章采用的是主从式。
3.2主从式集群控制设计
整体控制律设计基于人工势场设计,具体过程不多赘述,有兴趣的自己可以取看原文。
3.3队形变换
为了更好的应对突发的紧急情况,需要有队形变换模块。
当编队中的成员势函数出现极大排斥力时,队形需要紧急变为更为安全的队形(例如经过窄缝时,从钻石型变为一纵列),当离开危险环境时,将变回初始队形。
3.4沿墙运动控制
在凹形障碍物等一些有障碍物的复杂环境下,势场很容易陷入局部最优解或振荡点。采用沿墙运动控制,即使机器人只知道局部环境信息,可以避免陷入局部最优问题中。
控制方法如图所示:
在这里插入图片描述
公式为:
在这里插入图片描述
在这里插入图片描述

基于动作的机器人的强化学习算法

基于行为的控制策略需要在运行过程中实时获取局部环境信息来进行运动:向目标运动,避撞和沿墙运动。这篇文章中,强化学习用于解决如何让智能体在与环境交互过程中使用学习策略来获得最大汇报的问题。
这篇文章采用Q-learning算法。
强化学习的价值函数如下定义

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值