第五章 模型和训练
1、多智能体强化学习
为什么需要多智能体(multi-agent)学习
梯度下降算法寻优方法类似从山顶放置小球向下滚,希望寻找最快最好的路径,到达最低的谷底。
每个智能体每次只使用一个小球,学习训练并使用一条路径,重复多次。而多个智能体类似放置一群小球,同时分别学习训练并使用各自的多条路径,向下滚动过程中互相联系通信,相互告知自己的位置及状态,团队合作,引导共同到达最低的谷底。
参见上图,多智能体(multi-agent)学习,相比单智能体:
- 多智能体智能体保持各自独特性和总体多样性
- 多智能体协同学习互通信息,效率更高,梯度下降速度更快
- 多智能体更易到达全局更优(右图)
- 多智能体收敛性提高
Actor-Critic和MADDPG
Google DeepMind 提出Actor-Critic,多个agent各自训练,分别更新主结构中的参数,协同进行寻优