基础篇
单阶段博弈
chap1.1 囚徒困境
在被称为"囚徒困境"的一对一单次同时博弈之中,如果各参与者都选择占优策略,就会导致比合作更坏的情况。
使占优策略失效的方法:
- 对被背叛者施加惩罚
- 增加博弈(交易)次数
chap1.2 纯策略纳什均衡
纳什均衡指的是所有参与者"在考虑到其他参与者采取策略的前提下选择自己最合适的策略"的状态。这种均衡并非只有一个,往往存在多个。在满足纳什均衡的状态下,任何参与者打破均衡采取其他的策略都会使自身收益受损害,因此这种稳定的状态会一直持续下去。
纳什均衡就是:所有参与者都在"以其他参与者的策略为前提的情况下,选择自己最合适的策略"的状态。也就是说,一旦参与者们选择了满足纳什均衡的策略,那么不管博弈中的任何参与者选择其他任何策略,都不能使自身的收益增加。虽然在博弈中纳什均衡策略并不是唯一的,但是如果只有自己改变策略,并不能使收益得到提高。
- 纳什策略一旦实现,任何参与者都不能再选择其他策略。
- 策略为首先要推动实现纳什均衡,然后再推动实现对自身最有利的纳什均衡。
- 纳什均衡一旦形成,所有参与者在只有自己选择其他策略的情况下都会使自身的收益收到损害。
chap1.3 混合策略纳什均衡
不管对方如何随机选择,自己的期望收益都固定不变的状况被称为混合策略纳什均衡。
归根到底还是概率的问题。关键在于选择能够让期待值最大化的策略组合。
- 期望最大化的策略会随着对方策略的改变而改变
在这个博弈中不但不存在占优策略,甚至也不存在满足纳什均衡的策略组合。这意味着不管参与者选择矩阵中的哪一个策略组合,只要收益较少的参与者改变策略,那么改变策略的参与者就能获得更多的收益。
混合策略纳什均衡:在所有参与者都维持当前随机化概率的前提下,只有一名参与者改变随机化概率无法增加自身收益的状态。
- 但是人类自以为随机的行动和选择,实际上往往存在某种行为模式。一旦这种行为模式被其他参与者发现,并且自身的策略做出相应的调整,那么这名参与者就能获得更多的收益。(可以通过抛硬币实现简单的随机化概率的方法)
在这种各参与者相互之间存在利害关系的多人博弈之中,如何避免参与者随机化选择导致选中收益劣势策略,以及促使参与者都选择能都获得最高收益的纯策略纳什均衡,对于所有参与者来说都至关重要。
首先计算混合策略纳什均衡的随机化概率,然后促进混合策略纳什均衡达到这个概率,而避免选中收益劣势的策略。
chap1.4 连续策略、连续收益与寡头垄断下的竞争理论
在市场处于寡头垄断下且拥有无限多个(连续的)纯策略的情况下,可以用古诺竞争模型和伯川德竞争模型来对策略进行分析。在这种情况下,自身的收益会受到对方策略的影响。
对于选项较少的博弈,只要通过收益矩阵就可以简单地进行说明,但博弈论中也存在连续的情况,因此分析也会变得更加复杂。
古诺竞争
- 某市场处于几家企业的寡头垄断状态下。
- 市场中产品的价格由几家企业的总产量决定。
- 为了使收益最大化,生产者需要决定自己的产量。
纳什均衡策略是各个策略曲线的交点:任何参与者单方面选择纳什均衡策略之外的策略,都无法提高自身的收益。
核心理论还是计算并推动纳什均衡策略。
伯川德竞争
- 某市场处于几家企业的寡头垄断状态下。
- 提供最低价格生产者将独占整个市场(提供相同价格的生产者均分市场)。
- 为了使收益最大化,生产者需要决定自己的产量。
如果说古诺竞争是对产量做连续选择的策略,那么伯川德竞争就是对价格做连续选择的策略。
“两个参与者都给出无限接近与成本的价格,两个参与者的收益也都无限接近于零”是唯一一个完全符合纳什均衡的策略。
总结
在古诺竞争下能够通过纳什均衡确保自身收益的各参与者,在伯川德竞争之中因为价格竞争的原因,不得不选择没有收益的均衡点。
在博弈中,我们首先要搞清楚什么样的博弈状况对自身有利,然后思考是否能够将博弈的规则朝着对自身有利的方向转变。
- 对于买方来说,需要推动古诺竞争到伯川德竞争的转变。
- 对于卖方来说,需要推动伯川德竞争到古诺竞争的转变。
多阶段博弈
- 当改变某种条件时,博弈的结构也将发生巨大的变化。
- 既然改变规则就能改变结果,那么应该如何将博弈的结构和规则向对自己有利的方向改变呢?
在商业活动中取得成功的一个秘诀就是:不但要适应规则,还要想办法将规则变得对自己有利。
chap2.1 序贯博弈与子博弈精炼均衡
序贯博弈最大的特点就是,位于后手的参与者可以根据先手参与者选择的策略来选择自己的新策略。因此先手参与者的行动就相当于“全新的信息”,给后手参与者的行动造成影响。在序贯博弈中还存在子博弈。
必须先对自身所处的状况以及对手的反击行动进行谨慎的分析之后,再决定是否接受对方的建议。
- 单阶段博弈:用博弈树对博弈进行整理的方法称为展开式。
- 多阶段博弈:用收益矩阵对博弈进行整理的方法被称为战略式或者标准式。
逆向归纳法从最后一个子博弈依次逆推到第一个分歧点,分析各参与者都会选择什么策略
- 通过末端分歧点为起点的子博弈来分析参与者会选择什么策略。
- 将做出相应选择后参与者所能获得的收益作为前提。
- 逆推到前一个分歧点(子博弈),思考参与者会选择什么策略。
结果发现在整个博弈的每个子博弈中,各参与者都会选择纳什均衡策略。这种策略组合被称为满足“子博弈精炼均衡”
子博弈精炼均衡在序贯博弈中是比纳什均衡更加强大的均衡概念。
让博弈向有利于自身的方向发展:
- 可以通过迷惑对手让对方误以为自己不知道对方的行动,将序贯博弈变成同时博弈。
- 改变博弈的顺序。
chap2.2 有限重复博弈
如果同一个博弈重复进行,可能会出现在单次博弈中难得一见的参与者相互合作的情况。在重复博弈中为合作关系提供保障的是其中一方背叛后其他参与者可能采取的“报复威胁”。
逆向归纳悖论:只存在一个均衡策略的博弈重复有限次数的情况下,基于逆向归纳法找出各子博弈中的均衡策略是唯一符合子博弈精炼均衡的策略。
- 通过将同一个博弈重复多次,可以使参与者做出与只进行一次博弈时完全不同的合作选择。
- 而参与者之间的合作关系并不需要事先商谈,参与者都是在追求自身收益最大化的过程中自然而然地做出了双赢的选择。
- 而且参与者相互之间要想维持长时间的合作关系,就必须在“背叛就会遭到报复”这个问题上达成共识。
在囚徒困境中,各子博弈都只存在单独均衡的情况,基于“报复威胁”的合作关系就无法发挥作用。但这个问题可以通过将博弈变成无限重复来解决。
chap2.3 无限重复博弈
无限重复博弈最大的特点就是不存在最后一次的子博弈。这样参与者就可以从自己不喜欢的占优策略中摆脱出来。在这种情况下要想维持合作关系,“报复威胁”必须长期具有可信性。因此,通过某种行动来使策略发生永久性转变的“触发策略”十分有效。
无限重复博弈的特点就是不存在最后一次的子博弈,也就意味着无法使用对序贯博弈和有限重复博弈进行分析是使用的逆向归纳法。
在无限重复博弈中,因为“报复威胁”的存在,各参与者可能会采取合作的策略,而非子博弈精炼均衡策略。但是如果一方背叛,就会选择为收益较低的子博弈精炼均衡策略。这种“以某种行动为契机永久转变策略”的策略被称为“触发策略”。
- 当“囚徒困境”重复无限次的时候,各参与者就可以从被迫选择的占优策略中摆脱出来,选择收益更高的策略组合。
- 在商业活动的环境之中,无限重复可以看作对当事人来说“不知道何时结束”的交易。只要不知道哪一次是最后一次,无法通过“逆向归纳法”进行分析的状况就都可以看作是无限重复博弈。
- 要想维持合作关系,“报复威胁”必须长期具有可信性。如果一方出现问题,另一方就可以抓住机会使用“逆向归纳法”进行分析,从而采取占优策略。
如果把获得的收益换算成现价值的情况下,投资收益率(将来收益与现在收益的比率,也可以称之为时间偏好率)也会成为影响双方是否能够在重复博弈中维持合作关系的因素。
- 一般来说,投资收益率越高,合作关系就越难以实现。因为先下手为强选择背叛获取的眼前利益比将来失去的收益更多。
- 反之,投资收益率越低,越有可能出现合作关系。
在商业活动中,一味追求眼前利益而置长远于不顾,那么很难培养出长期的合作关系。如果交易双方都对金钱有过度的追求,那么很难培养出长期的合作关系。交易对象之间要想实现合作关系,首先要每一位参与者对获取收益拥有足够的耐心。
应用篇
加入信息的不确定性
信息的重要性:
- 信息是继人才、物资、资金之后的第四大经营资源。
- 掌控信息的人将掌控整个世界。
要想让别人按照自己的想法行动,就必须了解自己与对方之间存在怎样的信息差,以及这个信息差拥有什么意义,并且能够灵活地加以运用。
- 他们对我们了解多少,他们对我们的印象如何。
- 我应该向他们透漏哪些信息,又有哪些信息应该绝对保密,原因是什么。
利用信息差的关键,在于将自己身处的状况放到一个可视化的结构之中,然后思考是否能够改变这个结构。
chap3.1 非对称信息博弈
非对称信息博弈中应用范围最广的是信号博弈。在这种博弈中,拥有信息的参与者会根据自己拥有的信息选择策略,而这种参与者的行动就会发出一个信号,其他没有信息的参与者会根据这个信号来推测参与者拥有什么信息,并以此为基础选择自己的策略。
在非对称信息的情况下,信息较少的参与者,需要通过信息较多的参与者的行动以及外部能够观察到的信号来推测对方的真实状态。
根据“逆向选择悖论”的推导:在信息非对称的情况下,由于高品质商品和低品质商品混杂,参与者的猜忌会使市场交易中商品的价格持续走低。更重要的是,价格持续走低会导致市场中提供高品质商品的卖家选择退出,结果出现市场规模缩小甚至彻底消失,即市场失灵的情况。防止这种情况,最直接的办法就是提高卖家将低品质伪装成高品质的成本。
贝叶斯均衡和纳什均衡最大的区别在于,纳什均衡中考虑的收益是“确定收益”,而贝叶斯均衡中考虑的收益是期望收益。使各参与者的期望收益最大化策略的情况被称为精炼贝叶斯均衡。满足精炼贝叶斯均衡的策略就具有“可信性”。
chap3.2 连续非对称信息博弈与信息操作
对于连续进行非对称信息博弈的参与者来说,有时候通过牺牲眼前的利益,不让其他参与者把握自己的策略对结果更为有利。也就是说,拥有信息的一方可以通过对信息的操控使信号博弈朝有利于自己的方向发展。
在非对称信息博弈连续重复的情况下,信息操作策略十分有效:连续进行的非对称信息博弈与单次博弈之间最大的区别在于,参与者会不惜牺牲眼前的利益,也要采取隐瞒自己真实身份的策略,而这种策略往往对最终的结果是有利的。信息操作策略的价值将随着博弈重复的次数而不断提升。
实际的商务活动大多是连续的非对称信息博弈。
chap3.3 委托人与代理人的博弈和道德风险
委托人与代理人的博弈,主要分析委托人如何让代理人按照自己的想法进行工作,以及代理人如何获得与自己付出的努力和取得的成果相当的回报。
委托人和代理人之间必然会出现博弈关系。因为委托人希望代理人能够以最小的成本取得最大的成果,而代理人希望能够花费最少的时间和精力满足委托人的需求。
chap3.4 拍卖理论
拍卖根据是否能够把握对方的行动,分为公开型拍卖和非公开型拍卖。前者公开进行,买家都知道其他买家的行动,相当于重复同时博弈;后者相当于同时博弈。
根据自己的评估价格选择弱占优策略:
- 第二价格封标拍卖
- 英国式拍卖(加价拍卖)
根据第二买家的评估价格选择占优策略:
- 第一价格封标拍卖
- 荷兰式拍卖(减价拍卖)
拍卖理论应用于商业:
- 事先把握拍卖的形式
- 警惕赢者诅咒(使用评估价格较低的价格)
- 同盟协议的稳定性和拍卖的形式有关
chap3.5 讨价还价理论与合作博弈
在有限次数序贯博弈的情况下,拥有最终提案权的参与者处于有利局面,但如果随着交涉次数的增加其收益率减少越多,当交涉次数达到一定程度时,博弈就会对最初的提案者有利。
- 重复次数有限的情况下,拥有最终提案权的参与者有利。
- 交涉延长导致收益较少率越高(交涉延长造成的损失越大)的情况下,交涉次数越多,对先提案的一方越有利。
- 交涉延长导致的收益较少率在各参与者之间各不相同的情况下,收益较少率越低(交涉延长造成的损失越小)的参与者有利。
博弈论的发展
- 如果博弈按照模型发展会出现不希望看到的结果,那就通过对前提进行调整,使博弈朝着有利的方向发展。
- 各参与者不一定非要在最开始就做出最合理的选择,只要随着博弈的进行能够学习最合适的策略,就能够逐渐成为选择更高收益策略的参与者。