C++学习(四八五)AlphaGo的硬件和算法

本文介绍了AlphaGo在战胜李世石时所使用的硬件配置,包括1202个CPU和176个GPU。核心算法是深度CNN神经网络与蒙特卡洛搜索树的结合。AlphaGo通过SL(监督学习策略网络)和RL(强化学习策略网络)学习落子策略,同时利用局面评估网络判断胜率。SL学习人类棋局,而RL则在SL基础上自我对弈优化。局面评估网络则预测棋局的胜率。
摘要由CSDN通过智能技术生成

1、硬件

维基百科上有各种版本的AlphaGo硬件配置 :

战胜李世石的版本为:(AlphaGo Distributed)使用了1202个CPU和176个GPU,同时可以有40个搜素线程。

2、算法

AlphaGo的技术总体架构如果一句话总结的话就是:深度CNN神经网络架构结合蒙特卡洛搜索树(Monte Carlo Tree Search)。

深度学习神经网络训练出两个落子策略和一个局面评估模型,这三个策略的神经网络架构基本相同,这是参数不同而已。

两个落子策略:SL(supervised-learning policy network),RL(Reinforcement learning policy network)。

落子策略SL是通过学习人类对弈棋局,来模拟给定当前棋局局面,人如何落子的思路,这是纯粹的学习人类下棋经验,它的学习目标是:给定某个棋局形式,人会怎么落子?那么AlphaGo通过人类对弈棋局来学习这些落子策略,也就是说SL策略学习到的是像人一样来下下一步棋。

(数字表示人类棋手会下在该地方的可能性)

落子策略RL是通过AlphaGo自己和自己下棋来学习的ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值