博弈(Game)
- 多智能体环境下,智能体之间存在合作和竞争关系;
- 数学领域中的“博弈”: 把任何多智能体环境看成是一种博弈游戏,如果其中每个智能体对其它智能体的影响是“显著的”,这些影响可以是合作或竟争。
- 人工智能领域中的“博弈”: 确定性的、有完整信息的,轮流行动的,两个游戏者的零和游戏。
- 博弈的抽象本性成为AI研究者感兴趣的对象
AI中研究的博弈,即如何根据当前的棋局,选择对自己最有利的一步棋 ?
博弈的特点:
双方的智能活动,任何一方都不能单独控制博弈过程,而是由双方轮流实施其控制对策的过程。
博弈问题的表示:
用博弈树来表示,它是一种特殊的与或图。节点代表博弈的格局(即棋局),相当于状态空间中的状态,反映了博弈的信息。 与节点、或节点隔层交替出现。
为什么与节点、或节点隔层交替出现?
假设博弈双方为:MAX和MIN
在博弈过程中,规则是双方轮流走步。在博弈树中,相当于博弈双方轮流扩展其所属节点。
从MAX方的角度来看:所有MIN方节点都是与节点
理由: 因为MIN方必定选择最不利于MAX方的方式来扩展节点,只要MIN方节点的子节点中有一个对MAX方不利,则该节点就对MAX方不利,故为“与节点”。
从MAX方的角度来看:所有属于MAX方的节点都是“或节点”
理由: 因为扩展MAX方节点时,MAX方可选择扩展最有利于自己的节点,只要可扩展的子节点中有一个对已有利, 则该节点就对已有利。
在博弈树中,先行一方的初始状态对应树的根节点,而任何一方获胜的最终格局为目标状态,对应于树的终叶节点(可解节点或本原问题)。但是,从MAX的角度出发,所有使MAX获胜的状态格局都是本原问题,是可解节点,而使MIN获胜的状态格局是不可解节点。
博弈的例子:
- 一字棋
- 跳棋
- 中国象棋
- 围棋
- 五子棋
博弈中的优化决策(Optimal decisions)
- 问题的表述:两名游戏者MAX和MIN,MAX先行,然后两人轮流出招,直到游戏结束。
- 在游戏的最后,给优胜者奖分,给失败者罚分。
- 该问题可以形式化成为下面的搜索问题:
初始状态:包括棋盘局面和确定该哪个游戏者出招;
后继函数:返回(move, state)的一个列表;(move是合法招数,state是招数move所导致的状态)