Multi-Agent+Reinforcement learning
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
术语
这里, a 1 , a 2 , ⋯ , a n a^1, a^2, \cdots, a^n a1,a2,⋯,an表示 n n n个agent的动作
Multi-agent的难点就在于下一个状态 s ′ s' s′是跟所有agent的动作都有关系的,他们之间互相影响,而非彼此独立
- 一个agent的策略变化,state-value是会变化的
- 改变自己的策略,不一定会增大自己的收益,因为其他agent也会改变他们的策略
Convergence
convergence: 无法通过改进policy来获得更大的期望回报
- 此时,这些agent之间不进行交流,不通信
一个 agent更新策略,会导致其他agent的策略都变化,因此可能无法收敛
所有的agents都在不停的更新自己的策略,这可能使得训练永远无法收敛