围棋博弈程序的实现与思考（3）——UCT算法

最新推荐文章于 2024-04-19 20:06:09 发布

iteye_1468

最新推荐文章于 2024-04-19 20:06:09 发布

阅读量1.5k

点赞数 3

文章标签：人工智能数据结构与算法

我们已经知道UCB算法能够更快地找到靠谱的着手点，续上一篇的问，能不能再优化？

首先要知道的是，为什么UCB算法比盲目的蒙特卡罗局面评估收敛得更快？我的理解，是因为在算法执行的过程中，UCB算法能不断根据之前的结果调整策略，选择优先评估哪一个可下点。其实这是一种在线的机器学习策略。对于上一篇提到过的多臂匪徒问题，可以用UCB算法很好地解决。对于围棋博弈问题而言，UCB算法相比于朴素的蒙特卡罗局面评估方法，收敛速度有很大的提高，但确实存在可进一步优化的地方。

上一篇中，把围棋棋盘上的可下点比作了角子机，但他们之间有什么不同呢？

答案是——多臂匪徒问题只有一层角子机，围棋博弈问题则是多层角子机构成的博弈树！

终于提到博弈树了，需知在绝大多数棋类博弈问题中，博弈树是必不可少的工具。这里简单介绍一下博弈树搜索中用到的最基本搜索方法——最大最小搜索（如果对博弈树毫无概念，请自行google）。在一个二人零和博弈游戏中，参与博弈的双方所作出的每一个决策都是为了己方利益的最大化（废话～）。假设我们把黑方获胜时的棋局形势设为一个正数值v，白方获胜则是-v（其他情况下局势介于v和-v之间），则黑棋的每一手棋都是为了使局势尽可能的大，白棋反之。表现在博弈树中，则黑棋层总是选择局势值最大的结点作为结果返回上一层，白棋层反之——这就是最大最小搜索。

有了以上的科普，这里就给出上一篇的答案——更优化的算法，UCT算法（UCB for tree）。以下是算法描述：

给定一棵博弈树。

1) 从博弈树的根点开始向下搜索，执行2）。

2)遇到节点a后，若a存在从未评估过的子节点，执行3），否则执行4）。

3) 通过MonteCarlo方法评估该子节点，得到收益值后更新该子节点至根节点路径上所有节点的平均收益值，执行1）。

4) 计算每个子节点的UCB值，将UCB值最高的子节点作为节点a，执行2）。

5) 算法可随时终止，通常达到给定时间或尝试次数后终止。

根节点下平均收益值最高的子节点作为算法的输出。

对于这个算法，有几点需要解释：

1）博弈树的根节点指的是当前的局面。

2）评估过的节点及其平均收益值将在程序运行过程中保存及更新。

3）收益值可自行设定合适的值。我知道MOGO的做法是将其设为1（胜）或0（负），我的程序Foolish Go的做法是，所得地域 / 总地域。

4）这个算法是现代围棋博弈程序的基石。

个人对这个算法的理解是，本质上是一种迭代加深的DFS。

为了更好地理解UCT算法的收敛性，不妨思考，这个算法会怎样“意识”到下一手棋应该征子？

理论的东西差不多介绍完了，下一篇将进入实战。

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。