多智能体强化学习
Sixing27
这个作者很懒,什么都没留下…
展开
-
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
摘要在许多现实环境中,一组代理人必须协调他们的行为,同时以分散的方式行事。同时,通常有可能在模拟或实验室环境中以集中的方式训练代理,其中全局状态信息可用并且通信约束被解除。学习联合行动以额外的全局信息为条件的价值观是利用集中学习的一种有吸引力的方式,但提取分散政策的最佳策略尚不清楚。我们的解决方案是QMIX,这是一种基于价值的新方法,可以以集中的端到端方式训练分散的策略。QMIX采用了一个网络,该网络将联合行动值估计为每个代理值的复杂非线性组合,该组合仅基于本地观察。我们在结构上强制联合行动值在每个代理的原创 2021-08-01 12:32:26 · 761 阅读 · 0 评论 -
马尔可夫决策过程(Markov Decision Process,MDP)
马尔科夫链如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。马尔可夫奖励过程马尔可夫决策过程(MDP)...原创 2021-07-26 16:19:07 · 325 阅读 · 0 评论 -
多智能体强化学习
杂记广义而言,自动化系统可以通过两个关键的设计选择来表征:(1)他们从自己的观察中学习吗?和(2)他们是否从其他自动化系统的观察中学习?对于当今实践中使用的许多自动化系统来说,这两个问题的答案都是否定的。这些预编程的自动化系统在所有任务中重复相同的程序,经常采取不必要和浪费的行动。通过强化学习,自动化系统可以从以前的观察中学习[6,15,26,33,48]。然而,在实践中,自治系统观察世界的速度太慢,无法获取足够的学习数据,尤其是在最佳行动发生变化的非静态环境中。多智能体强化学习通过聚集来自多个智能体原创 2021-07-07 12:58:14 · 181 阅读 · 0 评论