【强化学习-13】Multi-Agent+Reinforcement learning

Multi-Agent+Reinforcement learning

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

术语

在这里插入图片描述

这里, a 1 , a 2 , ⋯   , a n a^1, a^2, \cdots, a^n a1,a2,,an表示 n n n个agent的动作
Multi-agent的难点就在于下一个状态 s ′ s' s是跟所有agent的动作都有关系的,他们之间互相影响,而非彼此独立

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 一个agent的策略变化,state-value是会变化的
  2. 改变自己的策略,不一定会增大自己的收益,因为其他agent也会改变他们的策略

Convergence

在这里插入图片描述

convergence: 无法通过改进policy来获得更大的期望回报

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 此时,这些agent之间不进行交流,不通信

在这里插入图片描述

在这里插入图片描述

一个 agent更新策略,会导致其他agent的策略都变化,因此可能无法收敛
所有的agents都在不停的更新自己的策略,这可能使得训练永远无法收敛

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值