多机器人强化学习是一个POMDP局部可观测马尔可夫决策过程或者分布式局部可观测马尔可夫决策过程DEC-POMDP。
POMDP不具有马尔可夫性,需要之前的信息。
多机器人的POMDP不仅需要自己的历史也需要队友的历史进行判断。
DEC-POMDP是一个NEXP(non-deter-ministic exponetianl time)问题。
MARL分为集中式和分布式。
- 集中式将所有机器人看作一个整体,采用经典强化学习利
- 全局学习单元进行学习,然后策略分配,常用于调度问题。
分布式更复杂,分独立强化学习(Reinforcement learning individually,RLI)和群体强化学习(Reinforcement learning in group,RLG)
根据机器人是否考虑其他机器人状态分为独立强化学习和群体强化学习,协作过程分为自私型、完全自私型、协作型、完全协作型。
MARL痛点
求解的计算难度搞、维度灾难;利用现有算法,求解时引起多机器人通信、策略协商和团队信度分配问题:学习速度和收敛性。
维度灾难的原因:若采用状态-动作的映射来表示行为策略,会出现学习策略随着状态、动作的维度增多呈指数型上涨。
因此也出现了为了解决这个问题的分层强化学习——分而治之
学习速度和收敛性:速度慢因为没有明确教师信号——固有难题。别人提出解决方案:1.融入先验2.欧拉前向微分计算方法?和RL结合3.学习获取协作行为准则4.启发式快速多个体强化学习HAMRL?5.经验回放
MARL中通信框架问题
现在有集中通讯,但是通信消耗大、延迟明显;Gossip说是通信复杂度最有和时间复杂度几乎最有的算法,通过挑选若干协调者coordinators承担主要的决策任务,避免了节点通信冗余
信度分配问题
1.structure-CAP(SCAP):也就是回报分配:任务分解,任务重要性权重分配回报;
有的文献用critic agent的方法研究信度分配
2.time-CAP(TCAP):时间信度分配:延迟汇报,延迟越多,就需要越多尝试,收敛时间越长。
MRRL’s Application
-
路径规划和避障:面向路劲长度、所需要的时间、能量消耗等多目标的优化问题
62:RL-localplanner
63(Multi-agent reinforcement learning for route guidance system 没找到):dijkstra+RL:globalplanner
64:Boltzman+Q-learning
65:Boltzman+QVDP -
多机器人任务分解:MRTA:任务分配的好坏将直接影响多机器人系统协作的效率,并关系到每个机器人是否能最大限度的发挥自身的能力。
66:RL in UAVs 任务分配
67:多卫星协同任务规划问题+RL
68:vacancy chain scheduling的多机器人资源分配
69:多个体分布式并行多任务分配,每个个体先通过profit利益分享学习方法进行学习(PSL profit sharing learning),然后利用通讯和协商来分配每次任务的真实工作量。 -
机器人足球
70:朴素贝叶斯预测其他agent动作,引入策略共享机制交换多个体所学习策略
71:重复Q-learning+经验复用Sarsa进行机器人足球守门员
72:通过策略梯度强化学习方法寻找球赛最优策略
73:RL在球赛中的决策机制:分层改进agent每个个体行为
多机器人RL的前沿方向和挑战
- 分型学习
- 模糊强化学习
- 定性强化学习
- 迁移强化学习
- 信息融合强化学习
- 多目标强化学习 MORL
综述来自《多机器人系统强化学习研究综述》–2014/西南交通大学学报