前言
General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述,比如Game Description Language,就能参与他之前从未见过的博弈,并且没有任何来自人类的额外输入。之前成功的工作基于类属启发(generic heuristics)的搜索,几乎没有使用ML的方法。这个工作扩展AlphaZero,发现其能产生有竞争力的结果。
尽管目前的AI效果非常好,但是他们都需要巨大的工作量,并且是针对特定博弈的。GCP是没有任何特定博弈具体知识的,鼓励能应用于不同领域的策略和通用的算法,通用算法使得anget可以plan和learn而不是仅仅使用人类算出的博弈特定的启发信息。缺少手工的启发信息意味着表现应该反映算法在博弈中的技能而不是编程人员的技能。
尽管AlphaZero有有限的泛化性,其算法在围棋,国际象棋和日本象棋上都达到了SOTA表现,但是它仍被限制在零和,两房,对手对称的博弈,并且对每个任务都有手工的神经网络。但是这种不使用博弈知识的子博弈方法有潜力扩展为GCP。
对GCP的主要评价是International General Game Playing Competition (IGGPC)。最开始的赢家使用generic heuristic extraction aided minimax,后来是upper confidence bound on trees (UCT) 算法,最近的是基于constraint satisfaction programming (CSP) 。
UCT
UCT 算法与传统搜索技术的最大区别在于不同的分支可以有不同的搜索深度。从一个初始为空的博弈树开始,每次仿真从root开始往下进行,使用上置信界的变体,直到到达叶结点。叶结点通过一次蒙特卡洛搜索仿真得到初始值,然后回传更新树中结点的值。运行多次后就能知道这个状态如何以及从这谁更可能赢。每个结点存储结点计数 N ( s ) N(s) N(s),动作 a a </