蒙特卡洛搜索在Snake(botzone)中的应用

蒙特卡洛搜索在Snake(botzone)中的应用

数据结构课设的任务是botzone平台的snake智障AI的编写,于是写了这篇文章总结。

特点:snake是双人同时选择方向,因此minmax貌似不太可行(不能你一步我一步的下)。而每条蛇最多有3个方向能够选择,因此有9种排列组合。每层遍历9种情况,选择可行方向作为节点,以此向下继续搜索。

踩过的坑:
  • 曾经尝试过限定搜索层数,在到达限定层数时采用评估函数的评判俩条蛇在本局面下的价值,以局面价值的高低来判断输赢,输赢作为reward往上层传播。但是效果并不理想,就是个智障。
  • 我们需要计算的是3个方向的ucb值,并以此来选择bestchild,但是我一开始计算的是9种排列中可行解的ucb,并未计算某一方向的ucb,因此导致,疯狂增加那个不太可能发生的可行解(建立在对方蛇足够蠢的情况下)的权重,最终选择了那个明显不好的方向
  • 选择bestchild的时候,只选择了本方ucb最高的方向,但是对方蛇也要认为走的是最佳走法啊。有点minmax的意思,因此,选择bestchild的时候,要选择由本方ucb值最大的方向和对方ucb值最大的方向构成的可行解。

蒙特卡洛的思想不再赘述,下面是几个重要的函数实现解释:

int uctSearch(State *originstate)
{
    node *root = new node(originstate, nullptr, -
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值