[AAAI2020] Deep Reinforcement Learning for General Game Playing 笔记

本文探讨了将AlphaZero算法扩展到通用博弈游戏(GCP)的领域,分析了算法在非零和、不对称和多方博弈中的应用。通过调整神经网络结构和奖励函数,使其适应协作和非对称场景。此外,还提出了针对非棋盘游戏的命题网络输入方法以及内存优化策略,以减少资源消耗。实验表明,这些改进使算法在通用游戏环境中展现出良好的性能。
摘要由CSDN通过智能技术生成

前言

General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述,比如Game Description Language,就能参与他之前从未见过的博弈,并且没有任何来自人类的额外输入。之前成功的工作基于类属启发(generic heuristics)的搜索,几乎没有使用ML的方法。这个工作扩展AlphaZero,发现其能产生有竞争力的结果。
尽管目前的AI效果非常好,但是他们都需要巨大的工作量,并且是针对特定博弈的。GCP是没有任何特定博弈具体知识的,鼓励能应用于不同领域的策略和通用的算法,通用算法使得anget可以plan和learn而不是仅仅使用人类算出的博弈特定的启发信息。缺少手工的启发信息意味着表现应该反映算法在博弈中的技能而不是编程人员的技能。
尽管AlphaZero有有限的泛化性,其算法在围棋,国际象棋和日本象棋上都达到了SOTA表现,但是它仍被限制在零和,两房,对手对称的博弈,并且对每个任务都有手工的神经网络。但是这种不使用博弈知识的子博弈方法有潜力扩展为GCP。
对GCP的主要评价是International General Game Playing Competition (IGGPC)。最开始的赢家使用generic heuristic extraction aided minimax,后来是upper confidence bound on trees (UCT) 算法,最近的是基于constraint satisfaction programming (CSP) 。

UCT

UCT 算法与传统搜索技术的最大区别在于不同的分支可以有不同的搜索深度。从一个初始为空的博弈树开始,每次仿真从root开始往下进行,使用上置信界的变体,直到到达叶结点。叶结点通过一次蒙特卡洛搜索仿真得到初始值,然后回传更新树中结点的值。运行多次后就能知道这个状态如何以及从这谁更可能赢。每个结点存储结点计数 N ( s ) N(s) N(s),动作 a a </

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AAAI 2020的教程“可解释人工智能”将重点介绍可解释人工智能的概念、方法和应用。可解释人工智能是指人工智能系统能够以一种可理解的方式解释其决策和行为的能力。该教程将涵盖可解释人工智能的基本原则和方法,包括规则推理、可视化技术、模型解释和对抗性机器学习等。 在教程中,我们将首先介绍可解释人工智能的背景和意义,解释为什么可解释性对于人工智能的发展至关重要。然后,我们将深入探讨可解释人工智能的基本概念和技术,例如局部解释和全局解释。我们还将介绍一些关键的可解释性方法,如LIME(局部诠释模型)和SHAP(SHapley Additive exPlanations),并解释它们的原理和应用场景。 此外,我们还将探讨可解释人工智能在各个领域的具体应用,包括医疗诊断、金融风险管理和智能驾驶等。我们将分享一些成功的案例和实践经验,探讨可解释人工智能在实际应用中的挑战和解决方案。最后,我们还将讨论未来可解释人工智能的发展趋势和挑战,展望可解释性在人工智能领域的重要性和前景。 通过参加该教程,学习者将能够全面了解可解释人工智能的概念、方法和应用,理解其在实际应用中的重要性,掌握一些关键的可解释性技术和工具,并对可解释人工智能的未来发展有一个清晰的认识。希望通过这次教程,能够为学习者提供一个全面而深入的可解释人工智能学习和交流平台。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值