作者:禅与计算机程序设计艺术
1.简介
AlphaGo,是Google在2016年提出的基于强化学习(reinforcement learning)的视频游戏AI模型。它由蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)、神经网络和对棋盘局势的高级特征工程(advanced board-state feature engineering)等组成。其战胜人类顶尖棋手围棋选手李世石,击败国际象棋世界冠军柯洁斯基等多项围棋比赛。它也被认为是目前最先进的AI模型之一。
随着人工智能(AI)领域的不断革新与进步,AlphaGo的模型也在不断更新和完善中。这份技术文档将记录AlphaGo的整个发展历程,并从AI的历史角度出发探讨它的演变及未来的发展方向。希望通过这一技术文档,能够帮助读者更全面地了解AlphaGo的发展历程、基础知识、核心算法、模型结构、训练数据、测试环境以及当前的研究和应用现状。
2.基本概念术语说明
2.1 AlphaZero
AlphaZero,是由Deepmind于2017年发表的一系列工作的统称。它是一种结合了蒙特卡洛树搜索(MCTS)与神经网络的训练方法,目的是开发一种可以直接从游戏板上获取输入图像、通过组合神经网络计算决策并落子的机器人。由于这种方式避免了暴力穷举搜索,使得AlphaZero取得了非常优异的性能。