MARL三种架构

1 三种架构总述

1)去中心化。agent都是独立的个体,独立跟环境交互,用自己的观测和奖励来更新自己的策略,agent之间彼此不交流。
2)完全中心化。所有agent都把信息传到中央控制器,中央控制器知道所有agent的观测、动作以及奖励,agent上没有策略网络,自己不做决策,只执行指令。
3)agent有自己的策略网络,同时存在一个中央控制器,它会收集所有agent的观测、动作以及奖励。中央控制器负责训练价值网络,agent负责训练策略网络。

2 三种架构实现

2.1 中心化训练+中心化决策

训练和决策全部由中央控制器完成。智能体负责与环境交互,执行中央控制器的决策,并把观测到的o汇报给中央控制器。如果智能体观测到奖励 r,也发给中央控制器。

2.2 去中心化训练+去中心化决策

在每个智能体上部署一个策略网络和一个价值网络,智能体之间不共享参数。训练可以在智能体本地完成,无需中央控制器的参与,无需任何通信。

去中心化训练+去中心化决策

去中心化训练+去中心化决策也叫Independent Actor-Critic。去中心化训练的本质就是单智能体强化学习 (SARL) ,而非多智能体强化学习 (MARL) 。在 MARL 中,智能体之间会相互影响,而本节中的“去中心化训练”把智能体视为独立个体,忽视它们之间的关联,直接 用 SARL 方法独立训练每个智能体。用上述 SARL 的方法解决 MARL 问题, 在实践中效果往往不佳 。

2.3 中心化训练+去中心化决策

当前更流行的MARL 架构是“中心化训练 + 去中心化决策”。

训练的时候使用中央控制器,辅助智能体做训练。训练结束之后,不再需要中央控制器,每个智能体独立根据本地观测o做决策。

中心化训练的系统架构。价值网络部署到中央控制器上,策略网络部署到每个智能体上。

去中心化决策的系统架构。在完成训练之后,智能体不再做通信,智能体用本地部署的策略网络做决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值