张海峰-从博弈论到多智能体强化学习

内容摘要

  • ·随着以图像识别为代表的“感知智能”日趋成熟,越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代,群体决策智能将成为一个研究重点
  • ·传统上,博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念,侧重分析理性智能体的博弈结果,即均衡。然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此,近年来兴起的多智能体强化学习主要研究智能体策略的同步学习和演化问题,它在无人机群控制、智能交通系统、智能工业机器人等场景中具有很大的应用前景。

群体决策智能研究背景

AI 发展趋势

在这里插入图片描述

群体智能决策问题场景

  • 围棋、王者荣耀、星际争霸
    在这里插入图片描述
  • 快递仓库、无人机群、交通路口
    在这里插入图片描述
  • 社会中的人的决策
    在这里插入图片描述

博弈论

博弈的定义

在这里插入图片描述

矩阵博弈

在这里插入图片描述

策略推理

在这里插入图片描述
在这里插入图片描述

博弈的解

在这里插入图片描述

  • 有一组策略,如果玩家改变其中的动作,都会使收益不会上升,这样的策略组合就是纳什均衡。

在这里插入图片描述

在这里插入图片描述

协同问题

在这里插入图片描述

特殊的博弈:合作与竞争

在这里插入图片描述

多智能体强化学习

现实中的博弈

在这里插入图片描述

马尔科夫博弈

在这里插入图片描述

强化学习

在这里插入图片描述
在这里插入图片描述

学习目标一:均衡

在这里插入图片描述
在这里插入图片描述

学习目标二:协同

在这里插入图片描述
对对手的以往的表现后的想法有一定的推断;当前agent在做决策的时候会考虑一下对手在当前agent做了这个动作后会采取什么表现;对手也会同样这么考虑。这个是一层的考虑模型;;后续又做了一个多层的工作;

学习目标三:合作

在这里插入图片描述
在这里插入图片描述

  • 训练时,在AC框架的Critic上 ,action 拿到的是所有agent的action的组合;这个Q的设置下,可以对其他的动作做一个隐含的关联。
  • 在上图的中间图的合作场景下获得了不错的效果。

研究展望

智能体社会结构学习

在这里插入图片描述
现实中的 agent 通常是 异构 的;;

群体决策标准评测环境

在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值