AlphaZero vs 蒙特卡洛树搜索（MCTS）和神经网络: A Generalizable AI That Masters Chess

AI天才研究院

已于 2023-08-10 16:02:05 修改

阅读量317

点赞数

分类专栏： Python实战文章标签：自然语言处理人工智能语言模型编程实践开发语言架构设计

于 2023-08-10 09:11:06 首次发布

本文链接：https://blog.csdn.net/universsky2015/article/details/132201823

版权

Python实战专栏收录该内容

5699 篇文章 116 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

AlphaZero是DeepMind基于深度强化学习的算法，使用蒙特卡洛树搜索（MCTS）和神经网络，无需人类专业棋艺，能自我学习并精通多种棋类游戏。它通过不断模拟、变异和自我塑形提升性能，解决了AlphaGo的问题。AlphaZero在围棋、国际象棋等领域超越了传统方法。

摘要由CSDN通过智能技术生成

作者：禅与计算机程序设计艺术

1.简介

1997年，Google DeepMind提出了一种基于深度强化学习（Deep Reinforcement Learning）的方法AlphaGo，它打败了围棋冠军李世石。经过5个月的训练后，AlphaGo已经能够在五子棋、象棋和国际象棋等不同游戏中击败顶级人类选手。随后，研究人员也对AlphaGo进行改进，提出了AlphaZero算法，并成功地训练出一个可以通用到其他五种不同棋类游戏的AI。而AlphaZero算法本身也是一种深度强化学习方法，它采用蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）和神经网络（Neural Network），从而让计算机自己下棋，而不需要依赖于人类的专业棋艺。因此，AlphaZero将计算机打下“巨无霸”的同时还实现了通用性。

1997年，Tesauro Velasco 和Guido Gilardo等人发现，围棋中的“终局风险”是一个问题，如果计算机一开始就计算出最优策略，并且对局面进行随机的评估，就可以击败最强的围棋选手。他们利用这个发现设计出了一个新的AI叫做神经网络系统（Artificial Neural Networks System, ANNS），使用神经网络学习玩棋的最佳策略。

2017年，