Expectimax
- 在最大最小搜索树中引入了概率
- 因为在大多数情况下的真实世界都是按照概率发生事件的
- 但是 expectimax 不能进行和 minimax 相似的剪枝策略因为要计算每个绿色节点的具体值需要将所有的叶子结点都遍历一下然后根据概率求出;因此不能使用剪枝策略
Multi-Agent
- 之前讨论的情况都是两个代理之间的对抗搜索,在对砍搜索的情境下两个 agent 使用的博弈方法是 sum-zero 博弈,即都认为对方的策略是最优的,因此自己也做出最优的策略。
- 但是在多个 agent 的情境下,既有可能出现对抗的情况也有可能出现合作的情况。
- 在上述例子中的所有叶子节点中都有 3 个值,三种颜色分别代表 红 蓝 绿 agent 在当前分支中通过 utility function 算出的值。
- 先看左边的分支,绿色节点直接和叶子节点接触,左侧分支的 绿色节点选出 1,6,6 和 6,1,2 这种情况的时候,蓝色只能从这两个里面挑一个最好的情况,而恰好,蓝色的最大值 6 和 绿色的最大值 6 同时出现在同一个叶子节点中,因此这时候蓝色和 绿色是双赢的情况,即他们同时最大化了自己的收益。
- 再看右边的分支中,绿色选出的两组数据中并不包含蓝色的最大值的情况,蓝色最终只能在(5,1,7)和 (5,3,5) 中选则包含较大蓝色值的 (5,2,5);但是在叶子节点中的蓝色最大值是 7,这个时候蓝色和绿色代理就不能同时获得最大的收益