多智能体强化学习阅读体会

文章目录


正文

强化学习的基本思想来源于人类或动物的学习行为,智能体通过与环境进行直接交互,并根据环境反馈的信息,不断调整优化自身策略,作出最优序列决策,获得最大回报。数学上,通常采用马尔可夫决策过程(Markov Decision Process, MDP)来描述强化学习过程。强化学习框架包括五个元素:动作空间(A),状态空间(S),状态转移概率§,奖励®和折扣因子()。智能体的策略是动作空间关于状态空间的条件概率分布,即 。近年来,随着数据规模的增长,以及越来越复杂的需求,同时得益于越来越强大的计算能力和新技术,尤其是深度学习强大的特征表示能力,强化学习延伸出了众多新的方向。强化学习(RL)在许多突出的序列决策问题中取得了惊人的进展,如玩实时策略游戏[1],机器人控制[2],自动驾驶[3]。不止一个agent/player的参与被系统地建模为多智能体强化学习(MARL)问题。具体来说,MARL解决了多个在共同环境中运行的自治代理的顺序决策问题,每个自治代理通过与环境和其他代理交互来优化自己的长期收益。MARL是一个热门的研究领域,在很多现实中的问题有广泛的应用。多智能体系统中的学习在其他子领域也有潜在的应用,包括信息物理系统[4]、金融[5]、传感器/通信网络[6,7]和社会科学[8,9]。如果用一句话来介绍多智能体强化学习,那么就是将强化学习的算法与方法论运用在真实复杂的多智能体环境中来解决最优的决策的问题。新的环境与新的领域必然就会带来新的挑战与新的问题。比如在single agent中只需要考虑将自己的task做到最好就可以了,但是在MARL的环境设置中,有些环境是存在竞争与合作的,如果你一味最优自己的reward,最终可能会使得在同个环境中其他agent与你竞争,最终既导致自己累积的reward受到损伤,同时使所有的agent的累积reward之和受到损伤。

MARL算法可以被分成三组,完全合作组,完全竞争组,或者两组混合组,这取决于它们处理的设置类型。特别是在合作环境下,代理商通过合作来优化共同的长期收益;而在竞争环境下,代理人的收益总和通常为零。混合环境包括合作代理和竞争代理,并获得总收益。不同的MARL设置建模需要从优化理论、动态规划、博弈论和分散控制等方面的框架。尽管存在这些多个框架,但MARL中的几个挑战实际上在不同的环境中是共同的,特别是在理论分析中。由于各个agent都在根据自身利益同时改进自己的政策,每个agent所面临的环境变得不稳定。这打破或破坏了单代理人设置下大多数理论分析的基本框架。此外,随着代理数量呈指数增长的联合行动空间可能会导致可伸缩性问题,即MARL[10]的组合特性。另外,MARL中的信息结构更加复杂,因为每个agent对他人的观察结果的访问都是有限的,可能导致局部的次优决策规则。这些都是潜在的挑战。

MARL是一个被广泛研究的问题,但目前种种方法都有他们独特的优势和不可避免的弱点,这可能就是No Free Lunch吧。与MARL巨大的应用成功形成鲜明对比的是,对MARL算法的理论理解被公认为具有挑战性,而且在文献中相对缺乏。但是,我相信,随着技术进步和算力提升,MARL算法的理论理解在未来会有更巨大的突破。

参考文献

[1] OpenAI: Openai five.https://blog.openai.com/openai-five/(2018)
[2] Kober, J., Bagnell, J.A., Peters, J.: Reinforcement learning in robotics: A survey. Interna-
tional Journal of Robotics Research32(11), 1238–1274 (2013)
[3]Shalev-Shwartz, S., Shammah, S., Shashua, A.: Safe, multi-agent, reinforcement learning for
autonomous driving. arXiv preprint arXiv:1610.03295 (2016)
[4]Wang, S., Wan, J., Zhang, D., Li, D., Zhang, C.: Towards smart factory for industry 4.0: A
self-organized multi-agent system with big data based feedback and coordination. Com-
puter Networks101, 158–168 (2016)
[5]Lee, J.W., Park, J., Jangmin, O., Lee, J., Hong, E.: A multiagent approach toQ-learning for
daily stock trading. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems
and Humans37(6), 864–877 (2007)
[6]Cortes, J., Martinez, S., Karatas, T., Bullo, F.: Coverage control for mobile sensing networks.
IEEE Transactions on Robotics and Automation20(2), 243–255 (2004)
[7]Choi, J., Oh, S., Horowitz, R.: Distributed learning and cooperative control for multi-agent
systems. Automatica45(12), 2802–2814 (2009)
[8]Castelfranchi, C.: The theory of social functions: Challenges for computational social sci-
ence and multi-agent learning. Cognitive Systems Research2(1), 5–38 (2001)
[9]Leibo, J.Z., Zambaldi, V., Lanctot, M., Marecki, J., Graepel, T.: Multi-agent reinforce-
ment learning in sequential social dilemmas. In: International Conference on Autonomous
Agents and Multi-Agent Systems, pp. 464–473 (2017)
[10]Hernandez-Leal, P ., Kartal, B., Taylor, M.E.: A survey and critique of multiagent deep rein-
forcement learning. arXiv preprint arXiv:1810.05587 (2018)


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值