张海峰-从博弈论到多智能体强化学习

晴晴_Amanda

于 2020-09-21 14:46:32 发布

阅读量4k

点赞数 13

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38293297/article/details/108705709

版权

强化学习专栏收录该内容

28 篇文章

订阅专栏

文章目录

内容摘要
群体决策智能研究背景
博弈论
多智能体强化学习
研究展望

内容摘要

·随着以图像识别为代表的“感知智能”日趋成熟，越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代，群体决策智能将成为一个研究重点。
·传统上，博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念，侧重分析理性智能体的博弈结果，即均衡。然而，在很多现实问题中，博弈的状态空间和动作空间都很大，智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此，近年来兴起的多智能体强化学习主要研究智能体策略的同步学习和演化问题，它在无人机群控制、智能交通系统、智能工业机器人等场景中具有很大的应用前景。

群体决策智能研究背景

AI 发展趋势

在这里插入图片描述

群体智能决策问题场景

围棋、王者荣耀、星际争霸
快递仓库、无人机群、交通路口
社会中的人的决策

博弈论

博弈的定义

在这里插入图片描述

矩阵博弈

在这里插入图片描述

策略推理

在这里插入图片描述

博弈的解

在这里插入图片描述

有一组策略，如果玩家改变其中的动作，都会使收益不会上升，这样的策略组合就是纳什均衡。

在这里插入图片描述

在这里插入图片描述

协同问题

在这里插入图片描述

特殊的博弈：合作与竞争

在这里插入图片描述

多智能体强化学习

现实中的博弈

在这里插入图片描述

马尔科夫博弈

在这里插入图片描述

强化学习

在这里插入图片描述

学习目标一：均衡

在这里插入图片描述

学习目标二：协同

在这里插入图片描述
对对手的以往的表现后的想法有一定的推断；当前agent在做决策的时候会考虑一下对手在当前agent做了这个动作后会采取什么表现；对手也会同样这么考虑。这个是一层的考虑模型；；后续又做了一个多层的工作；

学习目标三：合作

在这里插入图片描述

训练时，在AC框架的Critic上，action 拿到的是所有agent的action的组合；这个Q的设置下，可以对其他的动作做一个隐含的关联。
在上图的中间图的合作场景下获得了不错的效果。

研究展望

智能体社会结构学习

在这里插入图片描述
现实中的 agent 通常是异构的；；

群体决策标准评测环境

在这里插入图片描述

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。