黑白棋AI作业的一点心得与总结

近日学习了人工智能相关的课程,作业要求写一个利用到极大极小值算法的黑白棋AI,框架在网站上有给出,主要需要完成的功能只有两个:
1,搜索函数+剪枝
搜索函数主体其实不难理解,通过估值函数,我们可以对局面给出一个数值化的估计.任意时刻,我方总是在可能产生的子局面中选择对我方最有利的,而对方总选择对我方更不利的,也就是所谓的min-max算法.这个算法的问题在于编程时需要不断确定当前玩家,来决定决策时到底取min还是max,为了解决这个问题引入了nega’max算法,negamax(负极大值)算法对估值函数有一定要求,即在对战双方中(如黑白两方),一方返回正值,另一方则返回负值,越有利则绝对值应越大.同时在递归过程中,把返回值乘上一个负号,这样,每次递归都只需要选择最大值即可,简化了程序.
但单纯搜索的弊端在于,当可以落子的点位较多时,在几次递归后容易产生大量的叶节点,有限时间内难以搜索出最优解,因此需要对搜索树进行剪枝.
alpha-beta剪枝实质上是在递归过程中额外维护了两个值alpha和beta,它们分别代表当前层已经找到的最大值和最小值.
alpha剪枝就是在评估一个乙方节点x后,如果x的某一子节点值小于x的祖父节点的当前评估值,则剪除对x父节点的评估(因为甲方总是希望估值更大).
beta剪枝是在评估一个甲方节点y之后,如果y的某一子节点值大于y的祖父节点的当前评估值,则剪除对y父节点的评估(因为乙方总是希望估值更小).
说起来可能有点拗口,但画图模拟一下之后就比较容易明白了.
2,估值函数
而关于估值函数,其实能做的有很多,但由于能力有限,还是采取了几种静态估值加权的方式,其一是估值表,对每个棋盘的价值做出规定,而后根据当前局面统计出val1,其二是计算行动力数量val2,也就是当前局面下双方可行解的差值,我们更希望自己在决策时比对方拥有更多的选择,其三是稳定子数量,稳定子就是未来再也不会被翻面的棋子,由于全局统计的话十分麻烦,因此采用了最简单的"四角+与四角相邻的边"这样的统计方式,尽管会产生一些误判,但在有时限的情况下,还是不好浪费大量时间在估值上.

最后我的bot在网站上也只是排在220名左右(共400+),比起始分数稍高一点点,后来修改了不少次估值,才勉强提升了一点点性能,最后我才意识到有点本末倒置了,本来这个作业的目的也只是熟悉搜索+剪枝策略的,而不该在改参数上浪费大量时间.于是匆匆写下这篇博客聊做总结,唉,可能未来学习的更深入了会再做优化吧.

黑白棋,又叫反棋(Reversi)、奥赛罗棋(Othello)、苹果棋或翻转棋。黑白棋在西方和日本很流行。游戏通过相互翻转对方的棋子,最后以棋盘上谁的棋子多来判断胜负。 棋子:黑白棋棋子每颗由黑白两色组成,一面白,一面黑,共64个(包括棋盘中央的4个)。棋子呈圆饼形。    棋盘:黑白棋棋盘由64格的正方格组成,游戏进行时棋子要下在格内。棋盘可分为“角”、“边”以及黑白棋“中腹”。现今的棋盘多以8x8较为普遍。 棋钟:正式的比赛中可以使用棋钟对选手的时间进行限制。非正式的对局中一般不使用棋钟。 黑白棋的棋盘是一个有8*8方格的棋盘。下棋时将棋下在空格中间,而不是像围棋一样下在交叉点上。开始时在棋盘正中有两白两黑四个棋子交叉放置,黑棋总是先下子。    下子的方法把自己颜色的棋子放在棋盘的空格上,而当自己放下的棋子在横、竖、斜八个方向内有一个自己的棋子,则被夹在中间的全部翻转会成为自己的棋子。 并且,只有在可以翻转棋子的地方才可以下子。  如果玩家在棋盘上没有地方可以下子,则该玩家对手可以连下。双方都没有棋子可以下时棋局结束,以棋子数目来计算胜负,棋子多的一方获胜。在棋盘还没有下满时,如果一方的棋子已经被对方吃光,则棋局也结束。将对手棋子吃光的一方获胜。     每个“翻转棋”游戏开始时,棋盘上已经交叉放好了四颗棋子。其中两颗是黑棋,另两颗是白棋。黑棋总是先走。    当您的棋子在某一直线方向包围了对手的棋子时,就可以翻转这些棋子的颜色,使它们成为您方的颜色。例如,如果您执黑棋,并且看到在一排白棋的某一端是一颗黑棋,那么当您将一颗黑棋放在这一排的另一端时,所有的白棋都将翻转并变为黑棋!   所有的直线方向均有效:水平、垂直和斜线方向。    走棋的唯一规则是只能走包围并翻转对手的棋子。每一回合都必须至少翻转一颗对手的棋子。    按规则不能再走棋时,这一回合弃权。计算机会自动将控制权交给对方。 得分 “翻转棋”的计分方法非常简单。游戏过程中随时都显示黑棋数与白棋数。结束时棋数最多的一方就是赢家。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值