博弈论

最新推荐文章于 2023-11-11 18:31:39 发布

VIP文章 Fatli_Lee

最新推荐文章于 2023-11-11 18:31:39 发布

阅读量1.2k

点赞数 1

分类专栏：随笔文章标签：竞争管理战略合作

本文链接：https://blog.csdn.net/FatliTalk/article/details/54099035

版权

——博弈论（英语：Game theory），又译为对策论，或者赛局理论，应用数学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。

概述
博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构（incentive structure），所以它们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

博弈分类
博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

从行为的时间序列性，博弈论进一步分为两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解：“囚徒困境”就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈。
按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的准确信息，在这种情况下进行的博弈就是不完全信息博弈。
目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡、精炼贝叶斯纳什均衡（perfect Bayesian Nash equilibrium）。
博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

附：

零和博弈（英语：Zero-Sum Game），又称零和游戏或零和赛局，与非零和博弈相对，是博弈论的一个概念，属非合作博弈。零和博弈表示所有博弈方的利益之和为零或一个常数，即一方有所得，其他方必有所失。在零和博弈中，博弈各方是不合作的。非零和博弈表示在不同策略组合下各博弈方的得益之和是不确定的变量，故又称之为变和博弈。如果某些战略的选取可以使各方利益之和变大，同时又能使各方的利益得到增加，那么，就可能出现参加方相互合作的局面。因此，非零和博弈中，博弈各方存在合作的可能性。国际经济中许多问题都属于非零和博弈问题，即国际经济中各方的利益并不是必然相互冲突的。
也可以说：自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而双方都想尽一切办法以实现“损人利己”。零和博弈的例子有赌博、期货和选举等。

例子

囚徒困境：

在博弈论中，含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoner's dilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。

囚徒困境博弈 [Prisoner's dilemma]
A╲B	坦白	抵赖
坦白	-8，-8	0，-10
抵赖	-10，0	-1，-1

对A来说，尽管他不知道B作何选择，但他知道无论B选择什么，他选择“坦白”总是最优的。显然，根据对称性，B也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。在表2.2中的四种行动选择组合中，（抵赖、抵赖）是帕累托最优，因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡，即纳什均衡。不难看出，此处纳什均衡与帕累托存在冲突。
单从数学角度讲，这个理论是合理的，也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查，这是因为社会体系给人行为的束缚作用迫使人的决策发生改变。比如，从心理学角度讲，选择坦白的成本会更大，一方坦白害得另一方加罪，那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。而8年到10年间的增加比例会被淡化，人的尊严会使人产生复仇情绪，略打破“行规”。我们正处于大数据时代，向更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析，人的活动动影像动因复杂，所以囚徒困境只能作为简化模型参考，具体决策还得具体分析。

智猪博弈理论：

在博弈论（Game Theory）经济学中，“智猪博弈”是一个著名的纳什均衡的例子。假设猪圈里有两头猪，一头大猪，一头小猪。

　　猪圈很长，一头有一踏板，另一头是饲料的出口和食槽。猪每踩一下踏板，另一边就会有相当于10份的猪食进槽，但是踩踏板以后跑到食槽所需要付出的“劳动”，加起来要消耗相当于2份的猪食。

　　问题是踏板和食槽分置笼子的两端，如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。踩踏板的猪付出劳动跑到食槽的时候，坐享其成的另一头猪早已吃了不少。

　　“笼中猪”博弈的具体情况如下：如果两只猪同时踩踏板，同时跑向食槽，大猪吃进7份，得益5份，小猪吃进3份，实得1份；如果大猪踩踏板后跑向食槽，这时小猪抢先，吃进4份，实得4份，大猪吃进6份，付出2份，得益4份；如果大猪等待，小猪踩踏板，大猪先吃，吃进9份，得益9份，小猪吃进1份，但是付出了2份，实得-1份；如果双方都懒得动，所得都是0。

　　利益分配格局决定两头猪的理性选择：小猪踩踏板只能吃到一份，不踩踏板反而能吃上4份。对小猪而言，无论大猪是否踩动踏板，小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边，这是最好的选择。

　　现在来看大猪。由于小猪有“等待”这个优势策略，大猪只剩下了两个选择：等待，一份也得不到；踩踏板得到4份。所以“等待”就变成了大猪的劣势策略，当大猪知道小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，只好为一点残羹不知疲倦地奔忙于踏板和食槽之间。

　　在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！

　　高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择，对它的留意和研究可以给企业节省很多不必要的费用，从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见，却很少为小企业的经理人所熟识。

附：管理定律 from MBA智库百科

管理定律

A L续

安慰剂效应卢维斯定理

阿尔巴德定理蓝斯登定律

暗箱模式蓝斯登原则

阿尔布莱特法则垃圾桶理论

阿姆斯特朗法则蓝柏格定理

阿什法则雷鲍夫法则

艾奇布恩定理懒蚂蚁效应

阿罗的不可能
定理牢骚效应

艾德华定理洛克忠告

艾科卡用人法则拉图尔定律

阿伦森效应鲁尼恩定律

暗示效应拉锯效应

安泰效应 M

氨基酸组合效应木桶原理

B 墨菲定律

彼得原理蘑菇管理定律

不值得定律马太效应

贝尔效应名片效应

保龄球效应米格—25效应

布里特定理马蝇效应

比伦定律末位淘汰法则

柏林定律麦克莱兰定律

巴菲特定律目标置换效应

彼得斯定律