博弈论(Game Theory)入门——基础知识

1. 博弈的定义

博弈的基本要素:参与人(players)、行动(actions)、信息(information)、策略(strategies)、收益(payoffs)和均衡(equilibria)。

标准表达式(normal form):设在 n n n个参与者的博弈中,令 S i S_i Si表示参与者 i i i可选择的战略集合(也称为战略空间),其中任意一个特定的战略用 s i ∗ s^*_ i si表示( s i ∗ s^*_ i si S i S_i Si),当每个参与者都选定一个策略后形成了博弈的一个战略组合( s 1 s_1 s1,…, s n s_n sn)。令 u i u_i ui表示第 i i i个参与者选则对应策略后的收益函数。由此可定义博弈的标准表达式: G = G= G={ S 1 , … S n , u 1 , . . . u n S_1,…S_n, u_1,...u_n S1,Sn,u1,...un}.

收益矩阵:两人博弈的标准表达式通常可以使用收益矩阵来表示。例如经典的囚徒困境问题。两个犯罪嫌疑人被逮捕并被分别隔离审问,他们不同的行动将带来不同的后果。如果两人都不坦白(沉默)将被判入狱1个月;如果双方都坦白(招认),两人都将判处6个月;如果一人招认而另一人拒不坦白,则招任一方将马上释放,而不坦白的另一人将判处9个月。两人博弈的收益矩阵可表示为如下形式,其中每一单元格有两个数字,分别表示囚徒1和囚徒2的收益。
囚徒困境

策略:参与人关于其行动的完备集合,即考虑每一种可预见情况下选择的行动,即使那种情况出现不一定会出现。书上举例了一个直白的例子,如果参与人在1989年自杀,他的策略里也应当包括如果他在1990年还活着应该采取对应的行动。

策略和行动是有区别的,而在一些简单的博弈中两者的表现可能是一致的,如上述的囚徒困境中博弈双方的策略和行动可选集都是{沉默,招认}。

均衡:由博弈中的 n n n个参与人选取的最佳策略所组成的一个策略组合 s ∗ s^* s=( s 1 ∗ s^*_ {1} s1,…, s n ∗ s^*_ {n} sn) 。

2. 占优策略

严格占优策略(dominant strategy): 参与人i对于其他参与人所选择的策略s-i(用-i表示除了i之外的其他参与者)的最佳应对策略si*。即无论别人选择什么策略,选择s*都是最优的。这里的最优是指能使得参与人的收益最大化, u i ( s i ∗ , s − i ) > u i ( s i , s − i ) u_i(s_i^*,s_{-i}) > ui(s_i,s_{-i}) ui(si,si)>ui(si,si) 。相对地,那些较差的策略称为占劣策略(dominated strategy)。

在囚徒困境中,招认对于博弈双方都是占优策略,因为无论囚徒2选择沉默还是招认,囚徒1都有更高的收益(当囚徒2选择沉默时候,囚徒1选择招认收益为0,大于其选择沉默的收益-1;当囚徒2选择招认时,囚徒1选择招认的收益-6大于其选择沉默的收益-9),反之亦然。

弱占优策略:在一些博弈中,某些策略的收益至少不劣于其他策略, u i ( s i ∗ , s − i ) ≥ u i ( s i , s − i ) u_i(s_i^*,s_{-i}) \ge ui(s_i,s_{-i}) ui(si,si)ui(si,si) ,这些策略称为弱占优策略 。除了在某些情况下该策略和其他策略取得相同的收益,在其他情况下该策略的收益都要优于其他策略。

帕累托占优(pareto optimality):帕累托占优是从局外人的视角看待整个博弈。如果某个状态不能够再改进(这个改进是指在不损害一方的利益下提高另一方的利益),就说这个状态是帕累托最优。例如,在囚徒困境中存在三个帕累托最优策略(沉默,沉默),(招供,沉默),(沉默,招供);而(坦白,坦白)虽然对于参与人都是严格占优策略,但是从上帝视角来看,选择(沉默,沉默)这个策略相比(坦白,坦白)双方都有更高的收益。

3. 信息

在动态博弈中(参与者的行动有先后顺序),信息是至关重要的,为此先定义博弈的扩展式(extensive form)。博弈的扩展式包括(1)博弈中的参与人;(2a)每一参与者在何时行动;(2b)每次轮到某一参与者行动时可供他选额的行动;(3)与参与者可能选择的每一行动组合对应的收益。扩展式可以进一步以博弈树的形式表示。
在这里插入图片描述
图中博弈有两位参与者,参与者1可从{ L , R {L, R} L,R}中选择对应的行动 a 1 a_1 a1,接着参与者2观测到参与者1的行动后从{ L ′ , R ′ {L', R'} L,R}中选择 a 2 a_2 a2,两参与者的收益分别为 u 1 ( a 1 , a 2 ) u_1(a_1,a_2) u1(a1,a2) u 2 ( a 1 , a 2 ) u_2(a_1,a_2) u2(a1,a2)

在动态博弈中可能会出现这么一种情况,参与人 i i i知道现在是该谁行动给了,但却不知道博弈已经到达了博弈树的哪个具体位置,或者说该参与人无法区分他处在哪个节点上。考虑下图这种情况,此时参与人2不知道参与人1做出何种选择,无法区分他所处在左边的节点上还是右边的节点。这些无法区分的节点集合称为信息集
在这里插入图片描述
对不同的信息结构对博弈进行划分,总结如下:

信息种类含义
完美 (perfect)每个信息集都是单结点的
完全(complete)自然不首先行动或它的最初行动被每个参与人所观察到
对称(symetric)没有参与人在行动时或在终点结处有与其他参与人不同的信息

完美信息博弈满足了对于信息的最强要求,在这样的博弈中,每个参与人对于自己所处博弈树中的位置总是一清而出的,没有行动是同时进行的,且所有参与人都观察到了自然的行动。任何具有不完全或不对称信息的博弈也是不完美信息博弈。进一步地,可以归纳出以下博弈类型。

在这里插入图片描述

参考资料
  1. 《博弈与信息——博弈论概论》艾里克·拉斯缪森
  2. 《博弈论入门》吉本斯
  3. GameTheory, Coursera
  • 12
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值