深度学习24-多智能体强化学习

### 多智能体强化学习

▪  首先概述经典的单智能体RL问题和多智能体RL问题之间的异同。
▪  涵盖由Geek.AI英国/中国研究小组实现并开源的MAgent环境。
▪  使用MAgent在不同环境中对几组智能体训练模型。

事例

▪  国际象棋游戏,我们的程序试图击败对手。
▪  市场模拟,例如产品广告或价格变动,我们的动作可能引起其他参与者的对抗动作。
▪  Dota2或StarCraft II等多人游戏,智能体需要控制多个单位与其他玩家竞争。

**通信形式**

▪  竞争型:两个或更多的智能体试图互相击败对方以最大化他们的奖励。最简单的设置是两人游戏,例如国际象棋、西洋双陆棋或Atari Pong。
▪  协作型:一组智能体需要共同努力以实现某个目标。

在智能体之间需要相互协商、从而达成最优的联合动作的问题中,个体之间的相互建模,能够为智能体的决策提供潜在的协调机制。在联合动作学习(joint action learner,JAL)[6]方法中,智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模。在频率最大 Q 值(frequency maximum Q-value, FMQ)[7]方法中,在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率,从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作,那么所有智能体的最优动作组合被选择的概率也会更高。

随着深度学习的发展,利用神经网络的强大表达能力来搭建逼近模型(value approximation)和策略模型(常见于 policy-based 的 DRL 方法)。深度强化学习的方法可以分为基于值函数(value-based)和基于策略(policy-based)两种,在考虑多智能体问题时,主要的方式是在值函数的定义或者是策略的定义中引入多智能体的相关因素,并设计相应的网络结构作为值函数模型和策略模型,最终训练得到的模型能够适应(直接或者是潜在地学习到智能体相互之间的复杂关系),在具体任务上获得不错的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值