【笔记】人工智能 一种现代方法 人工智能 一种现代方法 第5章 对抗搜索

【笔记】人工智能 一种现代方法 人工智能 一种现代方法 第5章 对抗搜索

5.1博弈

对抗搜索:竞争环境中每个Agent的目标之间是有冲突的,也成为博弈。

博弈:有完整信息的、确定性的、轮流行动的、两个游戏者的零和游戏。

剪枝:在搜索树中忽略那些不影响最后决定的部分。

启发式评估函数:在不进行完全搜索的情况下估计某些状态的真实效用值。

5.2博弈中的优化决策

最优解:到达目标状态的一系列行动

中止状态:一方取胜

极小极大值:可以理解为有两个人MAX和MIN,MAX喜欢移动到有极大值的地方,MIN喜欢移动到有极小值的地方,终端状态由效用函数进行评价。MAX指向有最高极小极大值的中止状态。假设对手的决策均为最优。

5.2.1极小极大算法

递归算法自上而下一直前进到树的叶子节点,递归回溯通过搜索树把极小极大值回传。

理解:每一步都是最小化敌方的最大收益。

5.2.2多人博弈时的最优决策

超过两个人的博弈利用MINIMAX算法,由于之前研究的两人博弈一方得分可以反应另一方得分,故仅用一个数值表示状态得分,对于多人游戏,应该使用向量值替换单一效用值。每个节点的回传至是该选手在节点的后继者效用值向量中选择的结果。

多人博弈通常会涉及在游戏选手之间出现正式或非正式联盟的情况。

5.3α-β剪枝

极大极小值搜索时间复杂度呈指数级增加,α-β剪枝可以将复杂度减半,很多情况下可以剪裁掉整个子树。

在某节点的父节点有更好的选择,则不会探索到该节点。

α:到目前为止路径上发现的MAX的最佳选择

β:到目前为止路径上MIN的最佳选择

<
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值