强化学习—— 多智能体强化学习

CyrusMay

已于 2022-04-11 14:53:17 修改

阅读量9.2k

点赞数 17

分类专栏：强化学习文章标签：算法强化学习人工智能决策算法多智能体学习

于 2022-04-11 12:44:27 首次发布

本文链接：https://blog.csdn.net/Cyrus_May/article/details/124094386

版权

强化学习专栏收录该内容

16 篇文章 17 订阅

订阅专栏

强化学习—— 多智能体强化学习

1. 多智能体关系分类
2. 专业术语（Terminologies）
3. 多智能体策略学习的收敛问题
4. 多智能体强化学习
5 总结

1. 多智能体关系分类

1.1 合作关系（Fully Cooperative）

agent的利益一致，合作去获取共同的回报
如工业机器人

1.2 竞争关系（Fully Competitive）

一个agent的收益是另一个agent的损失
如捕食者和猎物

1.3 混合关系（Mixed Cooperative & Competitive）

既有合作，也有竞争
如机器人踢足球

1.4 利己关系（self-interested）

只想让自身受益，不关心别人受益或者损失。
如股票自动交易系统。

2. 专业术语（Terminologies）

2.1 假设agent个数为

$n$

2.2 状态为

$S$

2.3 第i个agent的动作为

$A^i$

2.4 状态转移函数

$p(s'|s,a^1,a^2,...,a^n)=P(S=s,A^1=a^1,A^2=a^2,...,A^n=a^n)$ 下一时刻的动作依赖于所有智能体的动作（相互影响）。

2.5 奖励（Reward）

第i个智能体获得的奖励为： $R^i$
合作关系： $R^1=R^2=...=R^n$
竞争关系： $R^1\propto-R^2$
$R^i依赖于自身的动作A^i,也依赖于其它智能体的动作(A^j)_{i\neq j}$

2.6 回报（Return）

t时刻第i个智能体获得的奖励为： $R_t^i$
第i个智能体的汇报为： $U_t^i = R_t^i+R_{t+1}^i+R_{t+2}^i+R_{t+3}^i+...$
第i个智能体的折扣回报为： $U_t^i = R_t^i+\gamma \cdot R_{t+1}^i+\gamma^2 \cdot R_{t+2}^i+\gamma^3 \cdot R_{t+3}^i+...\\\gamma \in [0,1]$

2.7 策略网络

每个智能体都有自己的策略网络： $\pi(a^i|s;\theta^i)$
在某些场景中策略网络是可以互换的，如自动驾驶中： $\theta^1 = \theta^2=...=\theta^n$
在某些场景中策略网络是不可互换的，如足球比赛中（不同角色有不同作用）： $\theta^i\neq\theta^j$

2.8 回报的随机性

奖励的随机性

$R_t^i依赖于S_t,A_t^1,A_t^2,A_t^3,...,A_t^n,$
$S_t的随机性依赖于状态转移函数P$
$A_t^i的随机性来源于策略网络\pi(\cdot|s_t;\theta^i)$

回报的随机性

$U_t^i=\sum_{k=0}^{\infty}\gamma^{k}R_{t+k}^i$
依赖于所有未来的状态： ${S_t,S_{t+1},...\}$
依赖于未来所有agent的动作： $\{A_t^i,A_{t+1}^i,...\}(for\quad i\quad in \quad range(1,n+1))$

2.9 状态价值函数

第i个智能体的状态价值为： $V^i(s_t;\theta^1,\theta^2,...,\theta^n)=E[U_t^i|S_t=s_t]$ 期望依赖于所有未来的动作和状态，除了t时刻的状态。
$A_t^j\sim \pi(\cdot|s_t;\theta^j)\quad j=1,...,n$
$V^i\sim\{\theta^1,\theta^2,...,\theta^n\}$
一个agent的状态价值依赖于所有agent的策略
如果一个agent的策略改变了，则其它所有智能体的状态价值都会改变。

3. 多智能体策略学习的收敛问题

3.1 单智能体的策略学习

策略网络： $\pi(a|s;\theta)$
状态价值函数： $V(s;\theta)$
目标函数(用于评价策略好坏)： $J(\theta)=E_s[V(s;\theta)]$
策略网络的参数学习方式为最大化目标函数： $max_\theta J(\theta)$
策略网络的收敛条件为目标函数不再增加。

3.2 多智能体策略学习的问题

3.2.1 收敛条件

收敛条件：满足纳什均衡（Nash Equilibrium）

保持其余智能体的策略不变时，仅改变第i个智能体的策略已不能提升其获得的回报。
每个agent都以最优的策略应对其它智能体的策略。
纳什均衡表明策略网络已经收敛，因为每个agent都不会去改变自己的策略，即使改变策略也不会提升自己获得的回报。

3.2.2 使用单智能体策略学习方式进行多智能体策略学习

第i个智能体的策略网络为： $\pi(a^i|s;\theta^i)$
第i个智能体的状态价值函数为： $V(s;\theta^1,\theta^2,...,\theta^n)$
目标函数为： $J(\theta^1,\theta^2,...,\theta^n)=E_s[V(s;\theta^1,\theta^2,...,\theta^n)]$
学习第i个策略网络的参数，通过最大化下列目标函数： $\mathop{max}\limits_{\theta^i}J^i(\theta^1,\theta^2,...,\theta^n)$
一个智能体更新策略，会使得其它智能体的目标函数发生改变，从而导致策略学习永远无法收敛。
假设第i个智能体找到最优策略： $\theta_\star^i=\mathop{argmax}\limits_{\theta^i}J^i(\theta^1,\theta^2,...,\theta^n)$ 其余agent改变自己的策略时，第i个agent的最优策略则已改变。

4. 多智能体强化学习

4.1 学习方式分类

4.1.1 Fully Decentralized

每个agent仅依据自身的观测值和奖励值进行策略学习，不同agent之间不交流。

4.1.2 Fully Centralized

每个agent将自己所有的观测值、奖励值和动作发送给中央控制器，每个agent只执行命令，不进行决策，所有的决策由中央控制器制定并下发。

4.1.3 Centralized Learning & Decentralized Execution(中心化训练，去中心化执行)

训练时使用中央控制器，训练结束后则不再依赖它。

4.2 不完全观测（partial observation）

一个智能体不能观测到完整的全局状态： $s$
第i个智能体的观测为： $o^i$
不完全观测： $s\neq o^i$
完全观测： $s=o^0=o^1=o^2=...=o^n$

4.3 完全去中心化学习（Fully Decentralized）

在这里插入图片描述

第i个agent的策略网络（actor）为： $\pi(a^i|o^i;\theta^i)$
第i个agent的价值网络（critic）为： $q(o^i,a^i;W^i)$
agent之间不做信息共享
与single-agent的学习方式完全一致。

4.4 完全中心化学习（Fully Centralized）

4.4.1 网络结构

在这里插入图片描述

所有agent的观测值为： $o=[o^1,o^2,...,o^n]$
所有agent的动作为： $a=[a^1,a^2,...,a^n]$
中央控制器知道每一个agent的观测值、动作和奖励
中央控制器具有n个策略网络（actor）: $\pi(a^i|o;\theta^i)\\i=1,2,...,n$
中央控制器具有n个价值网络（critic）： $q(o,a;W^i)\\i=1,2,...,n$
使用价值网络评价策略网络决策的好坏。

4.4.2 训练方式

训练完全由中央控制器执行
使用策略梯度训练策略网络
使用TD算法训练价值网络

4.4.3 执行方式

在这里插入图片描述

决策完全由中央控制器进行
所有agent将观测值传递给中央控制器
中央控制器收集到各个agent的状态观测值： $o=[o^1,o^2,...,o^n]$
对于每一个agent，中央控制器从相应策略网络中进行动作抽样，并下发至每个agent： $a^i\sim\pi(\cdot|o;\theta^i)$

4.4.3 优势与不足

优势：

知道全局信息，利于决策。

不足：

执行慢，与中央控制器的通信和同步较慢，往往取决于最慢的步骤。
无法实现实时决策。

4.5 中心化学习，去中心化执行（ Centralized Learning & Decentralized Execution）

4.5.1 网络结构

在这里插入图片描述

每个agent具有自己的策略网络： $\pi(a^i|o^i;\theta^i)$
中央控制器具有n个价值网络（网络可以相同，但是参数不同）： $q(o,a;W^i)$
训练过程中，中央控制器可以获得每个agent的动作、状态观测值、奖励。
执行（实际决策）过程中，中央控制器的价值网络不再使用。

4.5.2 训练方式

1.价值网络，使用TD算法进行参数更新，网络输入为： $a = [a^1,a^2,...,a^n]\\o = [o^1,o^2,...,o^n]\\ r_i$
2. 策略网络，使用策略梯度进行参数更新，网络输入为： $a^i\\o^i\\q^i$
在这里插入图片描述

4.5.3 参数共享

n个策略网络: $\pi(a^i|o^i;\theta^i)$
n个价值网络： $q(o,a;W^i)$
可训练参数为： $\{\theta^i,W^i\}_{i=1}^n$
参数可以共享，比如在无人车中
参数不可以共享，比如机器人足球比赛

5 总结

学习方式	策略网络（actor）	价值网络（critic）
完全去中心化	$\pi(a^i\|o^i;\theta^i)$	$q(o^i,a^i;W^i)$
完全中心化	$\pi(a^i\|o;\theta^i)$	$q(o,a;W^i)$
中心化学习，去中心化决策	$\pi(a^i\|o^i;\theta^i)$	$q(o,a;W^i)$

本文内容为参考B站学习视频书写的笔记！

by CyrusMay 2022 04 11

CyrusMay

关注

17
点赞
踩
130

收藏

觉得还不错? 一键收藏
7
评论
强化学习—— 多智能体强化学习

强化学习—— 多智能体强化学习1. 多智能体关系分类1.1 合作关系（Fully Cooperative）1.2 竞争关系（Fully Competitive）1.3 混合关系（Mixed Cooperative & Competitive）1.4 利己关系（self-interested）2. 专业术语（Terminologies）2.1 假设agent个数为2.2 状态为2.3 第i个agent的动作为2.4 状态转移函数2.5 奖励（Reward）2.6 回报（Return）2.7 策略
复制链接

扫一扫

专栏目录