一图解密AlphaZero(附Pytorch实践)

知乎专栏同步发布: https://zhuanlan.zhihu.com/p/41133862

本来打算自己写写的,但是发现了David Foster的神作,看了就懂了。我也就不说啥了。

看不清的话,原图在后面的连接也可以找到。


没懂?!!!那我再解释下。

 

AlphaGo Zero主要由三个部分组成:自我博弈(self-play),训练和评估。和AlphaGo 比较,AlphaZero最大的区别在于,并没有采用专家样本进行训练。通过自己和自己玩的方式产生出训练样本,通过产生的样本进行训练;更新的网络和更新前的网络比赛进行评估。

在开始的时候,整个系统开始依照当前最好的网络参数进行自我博弈,那么假设进行了10000局的比赛,收集自我博弈过程中所得到的数据。这些数据当中包括:每一次的棋局状态以及在此状态下各个动作的概率(由蒙特卡罗搜索树得到);每一局的获胜得分以及所有棋局结束后的累积得分(胜利的+1分,失败得-

  • 8
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
PyTorch提供了许多实践项目,适合人工智能、机器学习和深度学习方面的人员阅读,也适合其他IT从业者。这些项目可以帮助你通过经典项目入门PyTorch,提升PyTorch的技能,并在深度学习领域有更多的实践经验。你可以使用PyTorch进行数据处理、数据分析、深度学习实战等。\[1\] 如果你想开始一个PyTorch实践项目,你可以参考一些专栏导航帖,其中包括了100个深度学习实战项目的目录,每个项目都有详细的解释、数据集和完整的源码。此外,还有一些机器学习入门项目和机器学习实战项目的目录,以及Java和Python的经典编程例子。\[2\] 如果你想从NumPy创建张量,你可以使用torch.from_numpy()函数。这个函数可以将NumPy数组转换为PyTorch张量,方便在PyTorch中进行操作和计算。例如,你可以使用以下代码创建一个张量:import torch import numpy as np ndarray = np.array(\[0, 1, 2\]) t = torch.from_numpy(ndarray) print(t) 这将输出一个张量tensor(\[0, 1, 2\])。\[3\] #### 引用[.reference_title] - *1* *3* [2023初学者如何玩转玩转PyTorch?《21个项目玩转PyTorch实战》](https://blog.csdn.net/shangyanaf/article/details/130253996)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [最适合入门的100个深度学习实战项目](https://blog.csdn.net/m0_47256162/article/details/127365867)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值