引子 深度强化学习可以分为两类:单智能体算法和多智能体算法,单智能体算法从DQN开始有policy gradient、actor critic、dpg、ppo、ddpg、sac等等,它们解决的是环境中存在一个智能体的情况(或者是多个智能体可以转化为一个智能体决策的情况),但是在某些环境(environment)下,似乎单智能体算法就有些心有余而力不足,例如足球比赛亦或是追逐游戏。如果依旧对每个agent采用单智能体算法会出现如下情况:在第 i i i个agent做出动作