自我博弈(Self-Play)[1]是应用于智能体于智能体之间处于对抗关系的训练方法,这里的对抗关系指的是一方的奖励上升必然导致另一方的奖励下降。通过轮流训练双方的智能体就能使得双方的策略模型的性能得到显著提升,使得整个对抗系统达到正和博弈的效果。这种训练机制最早运用于跳棋游戏[2],后来在棋类,MOBA类等对抗性策略游戏中被广泛应用,例如AlphaGo、AlphaStar。
自我博弈有三个主要创新点。第一是探索课程,在稀疏奖励的环境下,将最终目标分割成若干个容易实现的小目标,每个目标都基于一定的奖励,使奖励变得稠密,并对智能体的探索行为给予一定的奖励。但随着训练的进行,探索奖励应当逐渐衰减为0。第二是对手抽样,智能体在面对过强或过弱的对手时,训练都会难以取得成效,因此环境中需要存储对手不同时期的训练版本,让较弱的一方有机会获胜,较弱的一方策略提升的同时会反过来促进较强一方变得更强。第三是鲁棒学习策略,为了防止智能体的策略拟合在某一种固定的对手身上,需要给对手引入多样性,给环境引入随机变量。
为了判断智能体的强弱,使自我博弈使用水平相近的智能体进行对抗训练,根据ML-Agents中的做法,较好的解决方式是引入ELO评级系统,这是一种计算零和游戏中两个玩家之间相对水平的方法。每一个玩家都有一个初始ELO分数(通常为1200),通过对战胜负结果更新ELO分数,假定玩家A的初始ELO分数为,玩家A的初始ELO分数为,则玩家A的预期胜利概率为:
E A = 1 1 + 1 0 R B − R A 400 E_A = \frac{1}{1+10^{\frac{R_B-R_A}{400}}} E