多智能体强化学习_去中心化多智能体强化学习

本篇文章将对以下三篇论文进行总结:

  • Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents
  • SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
  • Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents

本文提出了一种新的 MDP,称为 Networked Multi-Agent MDP,并在其上提出了两种去中心化的 Actor-Critic 算法,最后提供了在使用线性函数估计器情况下的收敛性证明。

为了引出 Networked Multi-Agent MDP,我们首先从 single agent 开始。这里之所以再对强化学习的一些基础进行回顾,是因为本篇论文采用的强化学习优化目标是平均回报(average reward),具体可参见我之前的文章

在使用平均回报后,相应的状态-动作值函数(Q 值函数)也相应的变为差分状态-动作值函数(差分 Q 值函数):

那么对应的策略梯度定理如下:

可以看到策略梯度定理的形式不随着优化目标的改变而改变。在将

替换为状态值函数
之后,我们引入优势函数:

同时为了减少参数数量,我们可以用状态-动作值函数(Q 值函数)来表示状态值函数,所以有:

接下来,令

表示 score function 的采样估计值,则传统的 actor-critic 算法的参数更新过程包含以下几个步骤:

其中

代表梯度下降的步长,
表示平均收益(return)的无偏估计,并且

在介绍完背景知识之后,下面我们给出 Networked Multi-Agent MDP 的正式定义:

(Networked Multi-Agent MDP)。令
代表
个智能体之间的随着时间变化的通信网络。一个网络化的多智能体马尔可夫决策过程(Networked Multi-Agent MDP)可以由以下五元组表示:
。其中
表示所有智能体共享的全局状态空间,
表示智能体
的动作空间。另外,
表示所有智能体的联合动作空间。
表示智能体
的局部回报函数,
表示此马尔可夫决策过程的状态转移概率。此外,我们假定状态以及联合动作是可以被所有智能体观察到的,只有回报是每个智能体独有的。

因为每个智能体的回报是独立的,并且动作也是独立执行的,因而我们认为我们的模型是完全去中心化的。

在给出了网络化多智能体马尔可夫决策过程之后,我们接下来给出解决此 MDP 所定义的目标优化函数,这里值得注意的是本文主要关注于协作环境,竞争环境以及混合环境不在本论文的考虑范围之内:

对应的,我们有全局差分状态-动作值函数(Q 值函数),此函数是所有智能体共享的:

由于本文提出的是多智能体问题下的 actor-critic 算法,还特意提出了一个多智能体强化学习策略梯度定理:

(多智能体强化学习策略梯度定理)。对于任意
,令
表示策略且令
代表
式代表的全局长程平均收益。另外,令
以及
分别表示
式以及
式定义的 状态-动作值函数和优势函数。对于任意
,我们定义局部优势函数
其中
表示除
外所有智能体的联合动作。
,那么策略梯度计算公式如下:

上述策略梯度定理表明,使用对应的局部 score function

,以及每个智能体对于全局状态-动作值函数(Q 值函数)或者全局优势函数的无偏估计就可以得到每个智能体的策略梯度。然而,如果每个智能体只使用局部信息,因为上述全局函数需要所有智能体的回报
才能被无偏估计,因而我们需要设计一个基于一致性约束的多智能体强化学习算法。该算法通过通信网络来在智能体之间传播局部信息,从而促进智能体之间协作关系的建立。

有了以上理论基础之后,我们首先提出一种基于局部优势函数

的算法,即每个智能体都维护属于自己的一个
,该值函数通过
参数化,记为
。由于
是一个全局共享的函数,因而我们通过通信网络让每个智能体
都与其网络中的邻接智能体分享自己的局部参数
,从而满足全局的一致性约束。这样的话,由于每个智能体都拥有一份全局
函数的副本,就可以使用上述多智能体强化学习策略梯度定理来更新自己的策略网络参数了。具体算法伪代码如下:

84ac112228ab0f00961f8f8665e8096f.png

我们注意到在算法1中,在前两个 for 循环之间出现了中断,这是因为在估计

值函数时需要用到当前策略下下一个时间步输出的动作
,这就会降低去中心化训练的效率。我们想只使用当前时间步的数据
,可以通过更改优势函数的计算方式来达到这一目的:

可以看到,使用贝尔曼方程替换

值函数后,我们需要估计的函数由一个变成了两个,分别是
以及
。所谓天下没有免费的午餐,这就是只使用当前时间步数据所带来的代价。因而,对应的 actor-critic 算法 2 的参数更新包括如下步骤:

下一步在更新策略参数时,虽然

的形式与优势函数一致,但是并不能直接使用该值作为优势函数的采样估计值来去更新策略网络的参数。这是因为优势函数中使用的回报时全局的平均回报,而
使用的回报时关于每个智能体的局部回报。为此,我们需要通过优化以下目标再引入一个函数来去估计全局的平均回报:

为了能够去中心化地优化上述目标,可以将其转化为下述等价形式:

那么参数

的更新步骤如下:

综上所述,我们一共有三部分参数需要满足一致性约束,和算法 1 相比多了两部分参数。下面是算法 2 的伪代码:

ce752f0d6aa50f54376ce98af64d6a6f.png

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation

本文从贝尔曼最优方程出发,将值函数与策略的优化目标转化为一个 primal-dual 问题,并给出了非线性函数估计下的收敛性证明。

我们有如下贝尔曼最优方程:

为了能够显式地优化策略,我们可以将上式转化为如下等价形式:

接着我们遵循时序差分学习的模式,最小化差分误差(TD error):

直接优化上述优化目标存在以下两个问题:

  1. 优化目标中的
    算子将会使得优化目标非光滑
  2. 二次函数中的条件期望项使得要想得到该二次函数的无偏梯度估计,需要进行两次独立采样(二次函数的导数计算需要计算两次条件期望项),这在现实场景中时很难满足的。

为了解决第一个问题,我们采用 Nestorov 平滑方法引入熵正则来对优化目标进行平滑:

这里故意采用熵正则而不是其他平滑函数应该是为了与目前学术界引入熵正则的形式保持一致。接下来我们可以进一步把

算子给去掉。具体来说,上式可由下式近似表示(log-sum-exp 是
算子的一个有效地平滑估计):

因而我们有了一个新的

算子,但是我们不能直接使用该算子采用时序差分学习的方式来更新参数,我们首先要证明这个新算子保持了原先算子下述三个重要特性(证明过程略,直接给出结论):

df390423fe462abdb3050dbbf366bbbf.png

根据第三个性质,我们就可以使用时序差分学习的方式来更新值函数的参数,具体来说,我们要优化下述目标函数:

至此,我们解决了上面提到的第一个问题。但是第二个问题还是没有得到解决,为了解决第二个问题,我们需要找到一个函数来去替换掉二次函数,而正好我们有:

因而我们的优化目标转化为:

接着通过以下代换:

最终优化目标即为:

那么为什么要转化为这种形式呢?原因是因为再 PCL(Path Consistency Learning) 算法中是通过优化

式的上界:

来去解决二次采样问题的,但这会引入方差,因而本文通过代换转化为

式的形式,把第二项解释为方差缩减项。既然第二项是方差缩减项,为了方差-偏差均衡,可以将最终的优化目标转化为:

由于内部对偶问题的优化函数是个二次函数,可以直接得到闭式解,这里不过多说明。对于外部原始问题,本文采用 Stochastic Mirror Descent 算法(随机梯度下降加上 bergman divergence 惩罚项,KL散度是一个特例):

其中

这里再额外补充两点:

  1. 与 TRPO 以及 NPG 算法的联系

f8414124be887fa586da26097be76046.png
  1. 对偶变量的物理意义

807738014726f01ff947a2bb97d92551.png

关于收敛性证明部分这里先按下不表。可以看出 SBEED 算法更新策略以及值函数的参数更新公式与 actor-critic 算法的形式是一致的。

Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

最后一篇论文可以认为是前两篇论文的结合:利用了第一篇论文对于 Networked Multi-Agent MDP 的定义,将 SBEED 算法扩展到多智能体问题上,同时为了能够去中心化实现,在优化问题上加入了一致性约束:

其中

为了使得参数满足一致性约束,本文没有采用第一篇论文中简单的求平均的做法,而是采用了 Hong et al. 2017 中提出的分布式优化算法Prox-PDA(这里只以

举例,
的更新也是一样):

最终算法框架如下:

52b5d706da86f7aa39be046a3ed2a8a9.png

还有个采用 Adam 算法代替随机梯度下降的加速版本:

0ea3d94a5acd6fa4014e2f0c65e93dd8.png

最后还有个 Mutli-Step 的扩展( SBEED 论文里也已提到),我们可以将

算子的性质三扩展为:

从而使得:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能发展背景全文共4页,当前为第1页。人工智能发展背景全文共4页,当前为第1页。人工智能发展背景 人工智能发展背景全文共4页,当前为第1页。 人工智能发展背景全文共4页,当前为第1页。 发展职业教育是推动经济发展、促进就业的重要途径,是缓解劳动力供求矛盾的重要环节。随着人工智能产业高速发展,相关行业对于技能型应用型人才产生了迫切需求,高等教育正在发生革命性变化,与当前我国经济社会发展的结合更加紧密,教育模式、形态、内容和学习方式正在发生深刻变革,以学习者为中心,注重能力培养,促进人的全面发展,个性化学习的理念日益深入人心,教育治理呈现出多方合作、广泛参与的特点。 高等院校开展人工智能专业教育,为人工智能产业发展与国家创新驱动战略培养和输送更多优秀人才,已经产生了巨大的需求,结合自身大数据、人工智能技术方面的积累与产业优势,贯彻《新一代人工智能发展规划》所提到的为产业、行业培养更多高素质的AI应用型人才的要求,愿助力院校在原有基础上拓宽人工智能专业教育内容,推动人工智能与计算机、信息、数学等学科专业教育的交叉融合,培养更多高素质大数据、人工智能应用型人才,提高学人工智能发展背景全文共4页,当前为第2页。人工智能发展背景全文共4页,当前为第2页。生的动手能力,提升学院计算机相关专业学生的就业竞争力,致力于企业发展同时,赋能高等教育创新培育能力,实现学校、学生、企业自我价值与社会赋予的责任与使命。 人工智能发展背景全文共4页,当前为第2页。 人工智能发展背景全文共4页,当前为第2页。 相关政策 随着人工智能产业高速发展,相关行业对于技能型应用型人才产生了迫切需求,高校开展人工智能专业教育,为人工智能产业发展与国家创新驱动战略培养和输送更多优秀人才。为鼓励人工产业的进一步发展,国务院、工信部、教育部等国家机构近期密集出台了若干指导意见、通知及政策。 2017年07月20日《国务院关于印发新一代人工智能发展规划的通知》中提出统筹布局人工智能创新平台,建设布局人工智能创新平台,强化对人工智能研发应用的基础支撑,构建形成面向产学研用创新环节的群智众创平台和服务环境。 2017年12月19日《国务院办公厅印发关于深化产教融合的若干意见》中鼓励企业依托或联合职业学校、高等学校设立产业学院和企业工作室、实验中心、创新基地、实践基地,推行面向企业真实生产环境的任务式培养模式改革。 2018年4月2日教育部关于印发《高等学校人工智能创新行动计划》的通知提出推进"新工科"建设目标,加强人才培养与创新研究基地的融合,完善人工智能领域多主协同育人机制,以多种形式培养多层次的人工智能领域人才。人工智能发展背景全文共4页,当前为第3页。人工智能发展背景全文共4页,当前为第3页。提出新建人工智能交叉研究中心的发展规划支撑人工智能领域人才培养。 人工智能发展背景全文共4页,当前为第3页。 人工智能发展背景全文共4页,当前为第3页。 2018年6月28日,教育部召开《新时代全国高等学校本科教育会议》。会议提出坚持"以本为本",推进"四个回归"。深入推进产教融合,实现合作办学、合作育人、合作就业、合作发展,进一步健全高校与行业企业协同育人机制。这也为人工智能进一步走进高校孕育了更好的条件。 为了贯彻《新一代人工智能发展规划》,为产业、行业培养更多高素质的AI应用型人才,结合自身大数据、人工智能技术方面的积累与产业优势,助力院校在原有基础上拓宽人工智能专业教育内容,推动人工智能与计算机、信息、数学等学科专业教育的交叉融合,培养更多高素质大数据、人工智能应用型人才,提高学生的动手能力,提升学校计算机相关专业学生的就业竞争力。 发展定位 坚持社会效益优先,兼顾经济效益的原则,通过双方的合作,切实践行国家和教育部提出的人工智能人才培养国家战略,打造人工智能人才培养及智能经济战略高地,提升当地智能经济建设内涵与加快构建当地人工智能产业生态。教学费用坚持"覆盖成本、略有盈余"的原则。 围绕人工智能领域人才培养特点,通过运用SPOC(Small Private Online Course小规模在线课程 加州大学伯克利分校提出)、虚拟化、人工智能等技术,推进人工智能人才培养信息化资源整合共享和开发利用,强化信息化技术与教学深入融合,项目拟建设针对人工智能实验系集内容、实验环境、实践教学案例、实践教学环境于一的综合性人工智能实验室。 人工智能发展背景全文共4页,当前为第4页。人工智能发展背景全文共4页,当前为第4页。 人工智能发展背景全文共4页,当前为第4页。 人工智能发展背景全文共4页,当前为第4页。 根据实际的经济发展需要和产业发展需求,增设人工智能专业的学习培训,为计算机及相关专业学生增学赋能,提升传统专业课程学习的含金量,增加学生就业砝码,为学生在将来人工智能浪潮的竞
人工智能行业分析报告 2 0 1 9 人工智能行业分析报告全文共33页,当前为第1页。 目录 INDEX 产业链和当前企业竞争格局 人工智能行业商业模式 发展前景和发展速度 人才情况和待遇 重点企业 人工智能行业分析报告全文共33页,当前为第2页。 产业链和竞争格局 一 人工智能行业分析报告全文共33页,当前为第3页。 基础层 技术层 应用层 大数据、云计算、GPU/FPGA等硬件加速等计算能力;身份信息、医疗、购物、交通出行等各行业、各场景的一手数据。 云计算:阿里云、百度开放云、华为。 计算硬件:寒武纪智能、龙芯、中科曙光、中科创达。 数据处理:东方国信。 TensorFlow,Caffe等框架或操作系统;机器学习、深度学习、增强学习等各种算法;语音识别、图像识别、人脸识别等通用技术。 语音识别、人机交互:科大讯飞、云知声。 计算机视觉:图普科技、商汤科技。 行业应用分发和运营平台,机器人运营平台;智能广告、智能诊断、自动写作、身份识别、智能投资顾问、智能助理、机器人等场景应用和解决方案。 金融:蓝海智投、招商银行、安邦金融、蚂蚁金服。 安防:海康威视、东方网力。 无人机:大疆创新、零度智控。 ·产业链 人工智能行业分析报告全文共33页,当前为第4页。 行业巨头拥有核心资源和技术,在竞争中广泛参与。 其余企业依靠自身独特优势参与基础层、技术层、应用层中的一个或多个竞争区域。 了解产业链及企业竞争格局——有助于同学们知道整个产业都有哪些环节,进而寻找适合的工作岗位。 百度 B 阿里巴巴 A 腾讯 T 人工智能的"大牛"——BAT 百度启动"凡尔纳计划"。 成立了深度学习研究院、硅谷人工智能实验室。 在智能硬件、智能生态、智能引擎方面大力布局。 阿里巴巴把人工智能统一规划在"云服务"内来做推广,主要运用电商业务。 因此主要布局智能语音交互、印刷文字识别、人脸识别、阿里云机器学习等。 腾讯先后成立了微信-香港科技大学人工智能联合实验室、优图实验室、微信模式识别中心、智能计算与搜索实验室。 在图像处理、模式识别、机器学习、数据挖掘等方面进行了布局。 ·竞争格局 人工智能行业分析报告全文共33页,当前为第5页。 人工智能产业链的上游中游目前处于稳定发展状况,而下游的应用层日新月异,不断拓宽中。 我们可以选择做基础层的智能硬件设计、数据分析、云计算; 也可以选择成为技术层的算法程序员; 亦或者选择作为应用层的弄潮儿,开发各种场景的解决方案,或寻找人工智能产业链下游新的发展方向。 人工智能行业分析报告全文共33页,当前为第6页。 商业模式 二 人工智能近年的总括 人工智能的应用 人工智能的商业模式 人工智能行业分析报告全文共33页,当前为第7页。 近年来,人工智能大热,它的商业模式和盈利方式也开始被大家关注。人工智能发展的背后离不开大量的投资,毕竟人工智能是一个极度烧钱的东西,而这些资金大部分都来源于一些公司投资,其中的一些公司也在这个基础上的到了一定的回报,成为了新科技的弄潮儿。 人工智能行业分析报告全文共33页,当前为第8页。 其实说到底,人工智能毕竟是一种技术,研发公司可以将自己的研发成果作为商品卖给一些做家电、电子产品的公司,使这种技术可以应用到他们的产品中,以增加他们产品的市场竞争力,同时更符合现在人们的需求。现在为大多数人所知道的出现在市场上和生活上的人工智能亦不少,下面是几个比较典型的例子,供大家更直观地了解到人工智能: 应用广泛的人脸、指纹、虹膜识别等 为商业人士提供预测和可视化分析工具的IBM发布的Watson Analytics 微软的Torque中文版、小冰、小娜等 可以让完全失明的盲人重新恢复视力的人工智能仿生眼 从另一方面来说,工智能的研发成本较高,出现在是市场上的价值也比较高,而且有很多人工智能还并未被大多数人所接受,还处于一种发展的阶段,所以目前盈利相对其他来说较少,但随着科技和社会的发展,人工智能必将会成为一种趋势,而到时人工智能市场化的问题也将会得到解决。 ·人工智能的商业模式 人工智能行业分析报告全文共33页,当前为第9页。 要谈论人工智能的商业模式,不妨先来看看人工智能有哪些应用,下面有三的大的方面: 智能机器人 指纹识别、人脸识别、视网膜识别、虹膜识别和掌纹识别等 智能搜索,博弈,自动程序设计,智能控制,遗传编程等 ·人工智能的应用 人工智能行业分析报告全文共33页,当前为第10页。 Gartner 指出,企业通常在人工智能领域考虑以下技术:深度学习强化学习,通用智能、自动驾驶、认知计算、商业无人机(无人机)、对话用户 界面、企业分类法和本管理、机器学习智能微尘、智能机器人,智能空间。在机器学习方面,全球处于期望膨胀的高峰期。Gartner 提出,机器学习会在自动化领域、药物研究、客户关系
围绕创模式、更理念、新环境、建智库,以“一一三”(全媒实景课堂一化互动平台、教育资源智慧库、学习交流平台、课堂互动系统、全媒实景课堂)模式的创新教育系建设为抓手,充分利用媒信息技术手段,探索资源价值、改革教学模式、创新学习方式、提升管理水平、强化社会属性。通过全媒实景课堂一化互动平台的构建,推进信息技术在教育教学工作中深度应用,为每一个受教育者营造“老师总在我身边”的信息化学习环境。 建设一套包含“备课工具、授课系统、作业系统、测评系统以及教学应用等内容”的创新式互动教学支撑系。在深度挖掘教学需求的基础上,优先规划设计与学院当前发展水平相适应的平台和工具,在优先改善学习方式、学习内容的进程中逐渐推进。探索一条教育教学内容由教育资源向教育资产转化的“丝绸之路”,引领行业发展方向。 推进媒信息技术与教学融合。建设智能化教学环境,提供优质数字教育资源共享平台和软件工具,利用媒信息技术开展启发式、探究式、讨论式、参与式教学,探索建立以学生为中心的教学新模式,倡导网络协作学习,提高信息化教学水平。逐步普及专家引领的网络教研,提高教师网络学习的针对性和有效性,促进教师专业化发展。 培养学生媒信息化环境下的学习能力。适应信息化和国际化的要求,继续普及和完善信息技术教育,开展多种方式的媒信息技术应用活动。鼓励学生利用信息手段主动学习、自主学习、合作学习;培养学生利用媒信息技术学习的良好习惯,发展兴趣特长,提高学习质量;增强学生在网络环境下提出问题、分析问题和解决问题的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值