[AAAI2020] Deep Reinforcement Learning for General Game Playing 笔记

最新推荐文章于 2021-01-20 18:14:03 发布

强殖装甲凯普

最新推荐文章于 2021-01-20 18:14:03 发布

阅读量650

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_38163755/article/details/105598170

版权

本文探讨了将AlphaZero算法扩展到通用博弈游戏（GCP）的领域，分析了算法在非零和、不对称和多方博弈中的应用。通过调整神经网络结构和奖励函数，使其适应协作和非对称场景。此外，还提出了针对非棋盘游戏的命题网络输入方法以及内存优化策略，以减少资源消耗。实验表明，这些改进使算法在通用游戏环境中展现出良好的性能。

摘要由CSDN通过智能技术生成

文章目录

前言

前言

General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述，比如Game Description Language，就能参与他之前从未见过的博弈，并且没有任何来自人类的额外输入。之前成功的工作基于类属启发（generic heuristics）的搜索，几乎没有使用ML的方法。这个工作扩展AlphaZero，发现其能产生有竞争力的结果。
尽管目前的AI效果非常好，但是他们都需要巨大的工作量，并且是针对特定博弈的。GCP是没有任何特定博弈具体知识的，鼓励能应用于不同领域的策略和通用的算法，通用算法使得anget可以plan和learn而不是仅仅使用人类算出的博弈特定的启发信息。缺少手工的启发信息意味着表现应该反映算法在博弈中的技能而不是编程人员的技能。
尽管AlphaZero有有限的泛化性，其算法在围棋，国际象棋和日本象棋上都达到了SOTA表现，但是它仍被限制在零和，两房，对手对称的博弈，并且对每个任务都有手工的神经网络。但是这种不使用博弈知识的子博弈方法有潜力扩展为GCP。
对GCP的主要评价是International General Game Playing Competition (IGGPC)。最开始的赢家使用generic heuristic extraction aided minimax，后来是upper confidence bound on trees (UCT) 算法，最近的是基于constraint satisfaction programming (CSP) 。

UCT

UCT 算法与传统搜索技术的最大区别在于不同的分支可以有不同的搜索深度。从一个初始为空的博弈树开始，每次仿真从root开始往下进行，使用上置信界的变体，直到到达叶结点。叶结点通过一次蒙特卡洛搜索仿真得到初始值，然后回传更新树中结点的值。运行多次后就能知道这个状态如何以及从这谁更可能赢。每个结点存储结点计数 $N (s)$ ，动作

最低0.47元/天解锁文章

强殖装甲凯普

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[AAAI2020] Deep Reinforcement Learning for General Game Playing 笔记

文章目录前言UCTAlphaZero算法协作博弈非对称博弈多方同时博弈Non-board games内存优化前言General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述，比如Game Description Language，就能参与他之前从未见过的博弈，并且没有任何来自人类的额外输入。之前成功的工作基于类属启发（generic heuristics）的搜索...
复制链接

扫一扫

专栏目录