![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多智能体
文章平均质量分 78
王莽v2
做一条有梦想的咸鱼
展开
-
多智能体强化学习(六)MARL的综述
多智能体强化学习(六)MARL的挑战1. MARL算法的分类法2. 综述的综述在本节中,我提供了对MARL算法的非全面的回顾。首先,我引入了不同的分类,可以应用于以前的分类。鉴于已经存在多个关于MARL方法的高质量、全面的调查,我们对这些调查进行了调查。基于所提出的分类法,我回顾了相关的MARL算法,涵盖了相同兴趣博弈、零和博弈和拥有无限个玩家的博弈。本节被写成有选择性的,重点关注那些有理论保证的算法,而不太关注那些只有经验成功的算法或那些纯粹由特定应用驱动的算法。1. MARL算法的分类法单智能体R原创 2021-07-06 11:42:40 · 3412 阅读 · 1 评论 -
多智能体强化学习(五)MARL的挑战
多智能体强化学习(五)MARL的挑战1.组合中的复杂性多维的学习目标3. 非平稳性问题4. 当出现N>>2时的可伸缩性问题与单智能体RL相比,多智能体RL是一个更好地匹配现实世界人工智能应用的广泛范围的通用框架。然而,由于存在多个同时学习的代理,除了在单代理RL中已经存在的智能体外,MARL方法还提出了更多的理论挑战。与通常有两个智能体的经典地图设置相比,解决一个多智能体RL问题更具挑战性。事实上,①组合的复杂性,②多维度学习对象,③非平稳性的问题都导致了大多数MARL算法能够解决④只有两个玩原创 2021-07-06 11:06:39 · 1459 阅读 · 0 评论 -
多智能体强化学习(四)多智能体RL
多智能体强化学习(四)多智能体RL1. 问题的公式:随机对策2. 解决随机对策2.1 基于价值的MARL方法2.2 基于策略的MARL方法2.3 纳什均衡的求解概念在多智能体场景中,就像在单智能体场景中一样,每个智能体都在尝试通过试错程序来解决顺序决策问题。不同的是,环境状态的演变和每个智能体收到的奖励功能现在由所有智能体的联合行动决定(见图3)。因此,智能体不仅需要考虑环境,还需要考虑其他学习代理交互。一个涉及多个智能体的决策过程通常通过一个随机游戏来建模(沙普利,1953),也被称为马尔可夫游戏(利特原创 2021-07-06 10:31:29 · 2338 阅读 · 1 评论 -
多智能体强化学习(三)单智能体强化学习
多智能体强化学习(三)单智能体强化学习1. 问题制定:马尔可夫决策过程2. 奖励最大化的理由3. 解决马尔可夫决策过程3.1 基于价值的方法3.2 基于策略的方法通过试验和错误,一个RL智能体试图找到最佳的策略,以最大化其长期回报。该过程由马尔可夫决策过程表示。1. 问题制定:马尔可夫决策过程定义1(马尔可夫决策过程)一个MDP可以用一个由关键元素<S、A、P、R、γ><\mathbb{S}、\mathbb{A}、P、R、γ><S、A、P、R、γ>组成的元组来描述。原创 2021-05-28 14:47:07 · 2020 阅读 · 0 评论 -
多智能体强化学习(二)简介
多智能体强化学习(一)简介1.RL的简短历史2. 2019年:MARL最繁荣的一年机器学习可以被认为是将数据转化为知识的过程。学习算法的输入是训练数据(例如,包含猫的图像),输出是一些知识(例如,关于如何检测图像中的猫的规则)。此知识通常表示为可执行特定任务的计算机程序(例如,自动猫检测器)。在过去的十年中,通过一种特殊的机器学习技术取得了相当大的进展:深度学习(LeCun等人,2015)。深度学习的关键实施例之一是不同类型的深度神经网络(DNNs)(Schmidhuber,2015),它可以在高维数据中原创 2021-05-27 21:46:48 · 1256 阅读 · 1 评论 -
多智能体强化学习(一)总览
摘要继AlphaGO系列的显著成功之后,2019年是蓬勃发展的一年,见证了多智能体强化学习(MARL)技术的显著进步。MARL对应于多智能体同时学习的多智能体系统中的学习问题。它是一个具有悠久历史的跨学科领域,包括博弈论、机器学习、随机控制、心理学和优化。虽然MARL在解决现实世界的游戏方面取得了相当大的经验成功,但文献中缺乏一个独立的概述来概述现代MARL方法的博弈理论基础,并总结了最新的进展。事实上,现有的调查已经过时,并没有完全涵盖2010年以来的最新发展。在这项工作中,我们提供了一篇关于MARL的原创 2021-05-27 21:18:20 · 783 阅读 · 1 评论