《博弈论基础》慕课学习笔记——2024年寒假

Aestheticism1021

已于 2024-05-02 21:07:42 修改

阅读量720

点赞数 17

文章标签：笔记

于 2024-02-29 19:41:48 首次发布

本文链接：https://blog.csdn.net/Aestheticism1021/article/details/136379290

版权

博弈论基础

——用博弈的眼光看世界

第一讲概述

一、何为博弈

1、博：博览全局，弈：对弈棋局

2、博弈：是指在一定个点游戏规则约束下，基于直接相互作用的环境条件，各参与人依据所掌握的信息，选择给的策略（行动），以实现利益最大化的过程。

二、启示

1、博弈既可以是竞争，也可以是合作

2、博弈，必须学会换位思考

3、博弈，只需领先一步，高人一筹

4、选对市场（对手）比选对策略更重要

5、在博弈之前，博弈就已经开始了

三、博弈模型

1、罗森赛蜈蚣博弈：两个博弈方A、B轮流进行策略选择，可供选择的策略有“合作”和“不合作”两种。

2、古诺模型：又称古诺双寡头模型或双寡头模型，是由法国经济学家古诺于1838年首次提出的。这是一个只有两个寡头厂商的简单模型，通常被作为寡头理论分析的出发点。

古诺模型假定一种产品市场只有两个卖者，并且相互间没有任何勾结行为，但相互间都知道对方将怎样行动，从而各自怎样确定最优的产量来实现利润最大化。在均衡时，各厂商根据它自己的反应曲线定产，所以均衡产量水平在两反应曲线的交点找到。

3、伯川德模型：描述了一种竞争格局，即生产同质产品的寡头厂商可能并不总是以产量作为决策变量进行竞争，也可以以价格作为决策变量的竞争方式。

伯川德模型的核心在于不同厂商之间产品是完全替代的，因此哪位寡头的定价更低，则哪位寡头将赢得整个市场，而定价较高者则完全不能得到任何收益，从而亏损。这种“赢家通吃”的市场竞争格局导致寡头之间竞相降价，直至价格等于边际成本——继续的降价行为意味着亏损。

伯川德模型的结论十分简明，即均衡的结果将是价格等于边际成本。这一结论同完全竞争条件下的结果是一致的，而大大不同于古诺模型。伯川德模型的核心在于不同厂商之间产品是完全替代的，因此哪位寡头的定价更低，则哪位寡头将赢得整个市场，而定价较高者则完全不能得到任何收益，从而亏损。这种“赢家通吃”的市场竞争格局导致寡头之间竞相降价，直至价格等于边际成本——继续的降价行为意味着亏损。

4、斯塔克尔伯格模型：斯塔克尔伯格模型由德国经济学家斯塔克尔伯格（H. Von Stackelberg）在上世纪30年代（1934年）提出的一种产量领导模型。该模型反映了企业间不对称的竞争。

在古诺模型和伯特兰德模型里，竞争厂商在市场上的地位是平等的，因而它们的行为是相似的。而且，它们的决策是同时的。当企业甲在作决策时，它并不知道企业乙的决策。但事实上，在有些市场，竞争厂商之间的地位并不是对称的，市场地位的不对称引起了决策次序的不对称，通常，小企业先观察到大企业的行为，再决定自己的对策。德国经济学家斯塔克尔伯格建立的模型就反映了这种不对称的竞争。

在斯塔克尔伯格的寡头理论中，提出了将寡头厂商的角色定位为“领导者”与“追随者”的分析范式。一般来说，古诺模型中互为追随者的两个厂商势均力敌。而斯塔克尔伯格的寡头厂商模型中，一个是实力雄厚的领导者，一个是实力相对较弱的追随者。

该模型的基本假定条件是，在一个寡头行业中有两个厂商，他们生产相同的产品，其中，一个寡头厂商是处于支配地位的领导者，另一个是寡头厂商的追随者；另外，与古诺模型一样，每个厂商的决策变量都是产量，即每个厂商都会选择自己的最优产量来实现利润最大化。

4、纳什均衡：又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什均衡。

一个策略组合被称为纳什均衡，当每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

第二讲基本假设

一、理性假设

（一）、认知理性

1、人是自我利益的判断者

2、偏好的完备性

3、偏好的传递性

4、中庸之道（综合激励）

（二）、行为理性

1、自我利益的追求者（行为者）

2、利益最大化：两利相权取其重，两害相权取其轻

提示：

1、人虽然不是完全理性的（有限理性），但是一定不能被认为是完全非理性的。

2、愿意吃亏，与那些比你更愿意吃亏的人做朋友

3、笑容让人类更容易建立合作关系，学会微笑，会让你受益匪浅

二、共同知识假设

1、共同知识(common knowledge)：指各参与者在无穷递归意义上均知悉的事实。即每个人知道事件E，每个人知道每个人知道事件E，每个人知道每个人知道每个人知道事件E——直到无穷层次。

2、永远完不成的任务，黑脸之谜

3、提示：达成共识是一件非常困难的事情

第三讲囚徒困境和破解之道

一、囚徒困境

1、囚徒困境（Prisoner'sDilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确凿，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。

2、（1）占优策略：是指无论其他参与者采取什么策略，某参与者采用该策略的结果都优于其他策略。

（2）占优策略均衡：是指由博弈中的所有参与者的占优策略组合所构成的均衡。

3、提示

（1）游戏规则决定游戏的结局

（2）囚徒困境的根本原因在于私人成本与社会成本的差异，即个人行为的负外部性

二、真实世界里的囚徒困境

（一）大萧条与凯恩斯革命

凯恩斯对大萧条的解释：

（1）消费需求不足

（2）投资需求不足

（3）价格刚性

（二）价格战

（三）独裁与多数人的懦弱

（四）民主与多数人多暴政

提示：民主必须与法治（不是法制）相辅相成，才能避免多数人的暴政

三、破解囚徒困境

（一）如何利用：货比三家，分而治之

（二）如何破解：

1、道德教化（文化建设）

2、财产私有（制度建设）

3、温故知新：让历史告诉未来（重复博弈）

第四讲万元陷阱和智猪博弈

一、万元陷阱

（一）万元陷阱：A拿出1万元拍卖，竞拍者相互竞价，并以100元为单位加价，出价最高者获得该1万元，出价第二高者也要将其所出价格支付给A，但不能获得任何回报。所有人都不愿意成为出价第二高的人，所以竞拍者要么选择不参与，要么选择成为出价最高的人。如果一开始所有人都不竞拍，那么必然会有人愿意以100元的价格购买1万元，一旦有人出价100元就会有人愿意用200元成为出价最高者，接下来加价会一直进行下去，直到一方破产。此时两个竞拍者都掉入了万元陷阱之中，拍卖者A才是最终的赢家。

万元陷阱是耶鲁大学经济学家苏比克设计的一个博弈论模型，具有三个特点：①有一个明显的诱饵；②通往诱饵的道路是单向的，能进不能出；③越想挣脱就会越陷越深。

（二）提示

1.不要指望能够以很低的价格买入。（绞刑架，可竞争市场）

2.尽快传递“势在必得”的信号。（破釜沉舟）

3.只争馒头不争气，没了馒头终断气。（务实）

4.高瞻远瞩，深谋远虑。（三思而后行）

5、抢占成本的最低点，就是抢占竞争的制高点

二、智猪博弈：多劳不多得

（一）在博弈论（Game Theory）经济学中，“智猪博弈”是一个著名的纳什均衡的例子。

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本。按钮和猪食槽在相反位置，按按钮的猪要付出2个单位的成本，并且丧失了先到槽边进食的机会。

若小猪先到槽边进食，因为缺乏竞争，进食的速度一般，最终大小猪吃到食物的比率是6∶4；若同时到槽边进食，大猪进食速度加快，最终大小猪收益比是7∶3；若大猪先到槽边进食，大猪会霸占剩余所有猪食，最终大小猪收益比9∶1。

那么，在两头猪都有智慧的前提下，最终结果是：小猪选择等待，大猪去按按钮。

（二）提示

1、智猪博弈是一个搭便车的博弈，一方付出了相应的代价，双方共享了所得到的收益

2、个体理性与集体理性相冲突，还是相一致，取决于制度安排(游戏规则)

3、解决个体理性与集体理性之间的冲突不是靠否定个体理性，而是靠修改制度(游戏规则)，从而在满足个体理性的基础上实现集体理性。

4、从智猪博弈中还可以发现，在A<10时，任一方去按都是集体理性的选择，而收入分配的不均将有助于减少个体理性与集体理性的冲突。

5、搭便车的同时，别忘了给对方以回报

6、富人愿意行善，离不开穷人的点赞

7、能力越大，责任越大

三、实例分析

（一）山寨现象（盗版）

（二）网络购物

（三）抄（复印）笔记

（四）汽车定位系统

（五）好货不便宜，便宜没好货

第五讲懦夫博弈和性别战

一、懦夫博弈

（一）懦夫博弈（game of chicken）是一个双人博弈，也称为斗鸡博弈和胆小鬼博弈等，其结构与鹰鸽博弈，雪堆博弈类似，都描述了博弈双方相对抗的场景。

在懦夫博弈中，如果两人都选择向前，那么双方均车毁人亡，收益最低；如果一人选择转向一人选择向前，那么没有事故发生，但是转向的人会被称为“懦夫”（“chicken”），向前的人获得最高收益；如果两人都选择转向，那么两人都获得一个较低的收益。

（二）提示

1、奖励要适度，过犹不及

2、赢者通吃（winner take all）的行业，容易出现过度竞争——28现象

（三）实例分析

1、路权之争

2、谁打电话

3、责任分散效应

（四）公共物品的提供

1、公共物品的特点：非排他性，非竞争性

2、谁来提供：囚徒困境，智猪博弈，斗鸡博弈

3、类似的例子（竞争关系）：停车占位（协调机制），升官发财（选拔机制），找工作（招聘管理），抢市场（竞争机制），填志愿（录取机制）

二、性别战

（一）性别战博弈(Game of Battle of Sex，有时缩写为BoS)，刻画的是这样一种博弈局势：在博弈中，双方存在一定的共同利益，但是具有共同利益的不同结果又有着相对冲突的偏好。比如，夫妻两人都宁愿在一起看同一个电视节目，而不愿意分开各自看各自喜欢的电视节目；但是给定大家看同一个节目，夫妻两人又各自偏好于能够看自己喜欢的节目。这样的博弈结构与囚徒困境、智猪博弈、纯协调博弈、斗鸡博弈的结构都完全不一样。

（二）类似的例子：约会，恋爱与结婚，聚餐，通讯（MSN），语言（世界语）

（三）扩展分析

1、农户的产品选择（规模与合作）

2、休假制度（团聚与旅游）

3、有效需求（长尾理论，余额宝）

4、盲人摸象与知识生产

（四）均衡的存在性和多重性

1、均衡的存在性定理：每一个有限博弈至少存在一个纳什均衡（纯战略的或混合战略的）

2、均衡的多重性——“聚点”均衡（谢林点）：

（1）文化、历史

（2）道德

（3）法律

第六讲混合策略和监督博弈

一、混合策略

（一）纯策略和混合策略

1、纯策略：如果一个策略要求参与者在每一个给定信息情况下只选择一种特定的行动。

2、混合策略：如果一个策略要求参与者在给定信息情况下以某种概率分布随机地选择不同的行动。

（二）实例：随机药物检测，点球射门，石头剪刀布

（三）提示

1、利益冲突需要协调时，如果协调成本过高，不如不协调

2、能够降低协调成本的制度（技术），是一种更好的制度（技术）

二、监督博弈

（一）征税博弈

（二）雇主与雇员的监督博弈

第七讲最后通牒和讨价还价

一、最后通牒

（一）最后通牒博弈是指两人分一笔总量固定的钱，比如100元。方法是：一人提出方案，另外一人表决。如果表决的人同意，那么就按提出的方案来分；如果不同意的话，两人都将一无所得。

（二）提示

1、人在博弈中，还会追求利益以外的价值

2、越是成熟的组织（社会），在管理中越是更多地运用最后通牒的博弈

3、最后通牒一方面可以节省大量的谈判成本，另一方面还可以给人以公平感

4、决定出价高低的是：贪婪与恐惧

5、职务提升制度直接影响组织的管理效率尽可能建立基于绩效和能力的职务提升制度，并坚持公开竞争性原则

（三）独裁者博弈

三个道理：

1、人们在决定其行动时，并不会仅们考虑到其经济利益，虽然这可能是最主要的一个考量，他们也会考虑一些道德“已所不和社会规范，比如公平原则，欲，勿施于人”

2、一个社会如果在制度安排上能够给人民更多可以拒绝(可以说“不”)的权利，那么这个社会就会产生更多的公平性，甚至会带来更多的效率改善。

3、一个社会在制度安排上给了官员的权力更多可以拒绝(可以说“不”(比如行政审批制度)，那么拥有审批权的官员一定能够从中获利丰厚。(如社会抚养费)

二、讨价还价

（一）也称为议价或谈判，主要是指参与者通过协商方式解决利益的分配问题，称讨价还价时主要强调其动作或过程，称谈判时则强调其状态或结果。

（二）贴现因子

1、贴现因子是指1个份额经过一段时间后所等同的现在份额。贴现因子是由参与者的“耐心”程度所决定的。

2、年龄，财富，未来收益的确定性（法治），知识水平（文化程度）

3、“磨刀不误砍柴工”，误与不误，取决于想要砍多少柴

第八章重复博弈和制度建设

一、重复博弈

（一）重复博弈(repeated game )是指同样结构的博弈重复许多次，其中的每次博弈称为“阶段博弈”(stage games)。重复博弈是动态博弈中的重要内容，它可以是完全信息的重复博弈，也可以是不完全信息的重复博弈。

（二）基本特征

1、前一阶段的博弈不改变后阶段的博弈结构

2、所有参与人都能观测到博弈过去的历史

3、参与人的总损益是所有阶段损益的贴现值之和

（三）可选择的策略

1、雷锋策略

2、曹操策略

3、冷酷策略(grim strategies),又叫触发策略

4、心太软策略

5、一报还一报(Tit-for tat)

6、人鬼策略

7、欺软怕硬(又叫检验者战略，TESTER，先背叛)

8、镇定者策略(先建立信任关系，然后想办法占小便宜)

9、精神病患者(醉汉策略)

（四）“一报还一报”的4大特点

1.它是善良的(前15名中只有一个非善良(第8)，善良与得分的相关性是0.58)——不树敌

2.它是可激怒的——防背叛

3.它是宽容的——给机会

4.它是清晰的——易辨识

“针锋相对”的善良性防止他陷入非合作的麻烦中，对对方背叛的报复则保证了对方背叛行为的谨慎性，宽容性则有助于在对方背叛后重新开始合作，而简单清晰的规则则易于被人理解，从而导出长期的合作。

（五）四点忠告

1.不要嫉妒

2.不要首先背叛

3.对合作和背叛都要给于回报(as soonas possible)

4.不要耍小聪明

（六）两点启示

1、合作的基础不是信任，而是关系的持续性。

2、组织相对于个人而言往往具有更长的预期寿命，从而提高了关系的持续性。(网购与网店)

二、制度建设

特别提示：

1、制度好可以使坏人无法横行，制度不好可以使好人无法充分做好事，甚至会走向反面

2、不要试图改变人性，而是努力改变制度，不要让人不想贪，而是让人不能贪，不敢贪

课程结语

人生是永不停息的博弈过程，博弈意味着通过选择合适策略达到合意结果。作为博弈者，最佳策略是最大限度地利用游戏规则;作为社会的最佳策略，是通过规则引导社会整体福利的增加。

——计算机之父、博弈论创始人之一冯·诺伊曼

人生是永不停息的博弈过程，博弈的精髓不是通过暴力或阴谋诡计去战胜对方，而是如何共同努力去建立起更好的游戏规则，实现民富国强与社会和谐的共同目标。

博弈的最高境界：双赢

我的课程评价总结

《博弈论基础》这门课让我认识到了许多博弈相关的基本概念，总的来说蒋文华老师上课风格较为幽默风趣，不过总体上感觉内容较浅显，没有触及博弈论的内核，不过也激发着我深入探索的兴趣，就算是入门了，在学习的过程之中我也了解到了许多人生道理，希望未来能够深入学习博弈论相关内容，尤其是一些深层次的理论，从而更好地实际应用。

希望在学校选修课的学习中能把慕课中的内容灵活运用的同时收获到不一样的新知识。

Aestheticism1021

关注

17
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
《博弈论基础》慕课学习笔记——2024年寒假

而且，它们的决策是同时的。但事实上，在有些市场，竞争厂商之间的地位并不是对称的，市场地位的不对称引起了决策次序的不对称，通常，小企业先观察到大企业的行为，再决定自己的对策。《博弈论基础》这门课让我认识到了许多博弈相关的基本概念，总的来说蒋文华老师上课风格较为幽默风趣，不过总体上感觉内容较浅显，没有触及博弈论的内核，不过也激发着我深入探索的兴趣，就算是入门了，在学习的过程之中我也了解到了许多人生道理，希望未来能够深入学习博弈论相关内容，尤其是一些深层次的理论，从而更好地实际应用。
复制链接

扫一扫