强化学习 之 多智能体(Multi-Agent)强化学习

参考

1、多智能体强化学习入门(一)——基础知识与博弈
2、《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读
3、多智能体强化学习相关论文总结归纳

简介

一个随机博弈可以看成是一个多智能体强化学习过程,在随机博弈中假定每个状态的奖励矩阵是已知的,不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数,再通过这些奖励值函数来学习得到最优纳什策略。

在多智能体强化学习算法中,两个主要的技术指标为合理性与收敛性。

合理性(rationality)是指在对手使用一个恒定策略的情况下,当前智能体能够学习并收敛到一个相对于对手策略的最优策略。

收敛性(convergence)是指在其他智能体也使用学习算法时,当前智能体能够学习并收敛到一个稳定的策略。通常情况下,收敛性针对系统中的所有的智能体使用相同的学习算法。

示例

定义一个2*2的网格博弈,两个智能体分别表示为 P1 和 P2 ,1的初始位置在左下角,2的初始位置在右上角,每一个智能体都想以最快的方式达到G标志的地方。从

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值