分布式强化学习的分类

根据智能体工作方式的不同,可以将分布式强化学习分为:集中式强化学习、独立强化学习、群体强化学习和社会强化学习。具体介绍如下:

1、集中式强化学习

集中式强化学习通常把整个多agent 系统的协作机制看成学习的目标, 承担学习任务的是一个全局性的中央学习单元, 这个学习单元以整个多agent 系统的整体状态为输人,以对各个agent 的动作指派为输出, 采用标准的强化学习方法进行学习, 逐渐形成一个最优的协作机制。集中式强化学习系统中的各个agent 都是“傻”agent, 它们不能执行学习任务, 而只能被动地执行学习结果。这类集中式强化学习通常用于调度问题,其体系结构如图所示

2、独立强化学习

独立强化学习中每个agent 都是独立的学习主体,它们分别学习对环境的响应策略和相互之间的协作策略,并对自己所感知到的环境状态选择一个获得回报最大的动作。独立强化学习中的agent 可能只考虑自己的状态而不关心其它agent的状态,选择动作时也只考虑自己的利益,agent从信度分配模块获得的强化信号只与自己的状态和动作相联系,所以进行学习时甚至可能忽视其它agent 的存在,认为只有自己在学习。相对于集中式强化学习,独立强化学习存在结构信度分配问题,其体系结构如图所示:

3、群体强化学习

群体强化学习将所有agent的状态或动

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值