关于博弈论的一点笔记

本文介绍了博弈论的基本概念,包括零和博弈、纯策略、混合策略、纳什均衡和帕累托最优。通过具体的博弈案例,如合同谈判和公司市场份额争夺,展示了如何运用这些理论进行决策分析。最后,文章讨论了非零和博弈的典型例子——囚徒困境,解释了纳什均衡和帕累托最优的概念。博弈论不仅在经济学和游戏中有应用,也为理解和解决现实生活中涉及多方决策的问题提供了理论框架。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近稍微了解了一下博弈论的一些基本概念,它本身是运筹学的一个分支,同时在经济学领域也是非常重要的一个科目,小到游戏设计,大到经济政治,很多案例都可以用博弈论的理论进行设计或者解释;博弈论的理论大都非常有意思甚至反直觉,了解博弈论的一些概念后可以帮助我们从更高的维度去看待生活中的一些事情;另一方面博弈论从数学上看其实还是属于优化问题,我们也可以从运筹优化的角度去理解博弈论的一些理论。这篇文章里我就摘录一些博弈论的概念,加上一点我自己的理解,当然作为非专业人士,可能有些理解偏差。

零和博弈

博弈论的英文名是Game Theory,正如它名字里的Game的意思,所有博弈论的案例我们都可以看成是一个多人竞争游戏:当只是单独一个个体做某个决策,没有其他任何竞争者的时候,和博弈论没关系;当存在两个以上的个体,他们存在了竞争关系,任何一个个体在做决策的时候,既希望自己获得的利益尽可能大,又需要考虑其他个体的决策,那这就是一个博弈的过程。一个博弈问题有这么几个关键要素:决策者(Player),也就是参与博弈的所有个体;策略(Strategy),就是每个个体在这次博弈中可选的行动;收益(Payoff),这次博弈的最终结果给每个个体带来的收益,可能为正,也可能为负。

博弈问题有多种分类方式,最常用的是按照总收益是否等于零来分类,如果所有决策者的总收益等于零,那么就是零和博弈(Zero-Sum Game),反之是非零和博弈(Non-Zero-Sum Game)。所有的赌博游戏就是零和博弈,有玩家赢钱,就有玩家输钱,大家的总钱数是固定的,所以赌博博弈的结果下所有人的收益总和一定等于零;非常经典的囚徒困境问题就属于非零和博弈,本文后面会详细介绍。

只有两个个体参与的零和博弈就是最简单的零和博弈问题模型,这里给出一个两人零和博弈的例子,方便后续的分析。假设一个足球球星找到经理,和他讨论合同续约的问题,这显然是一个零和博弈的过程,站在球星的角度,他自然希望合同的薪水越高越好,而经理则希望把合同的薪水尽可能压低,两者总的薪水收益是等于零的;对于球员来说,他在谈判时会有一些可能的策略,比如强调自己的实力,或者威胁转会,而对于经理来说,他也会有自己的策略,比如规定合同年限,或者限制球员的球队地位,双方不同的策略将决定出最终的合同。下面的收益表格可以很直观地表现该博弈的完整信息:
在这里插入图片描述
最左边的一列1和2是球星的策略选项,最上边一行的A, B, C是经理的策略选项,单元格中的数字代表了不同策略导致的合同薪资,例如如果球星选择策略1而经理选择策略A,那么最终合同的薪资是$50000。对于这个博弈问题,我们如何选择双方各自的策略,来找到一个全局利益最大化的解呢,也就是让球星和经理都满意的合同?

纯策略

所谓纯策略就是每个决策者都只坚持某个确定的策略,如果一个博弈可以通过纯策略就到达最优收益那么这个博弈就是一个纯策略博弈,我们用上面的例子来说明。

对于一个纯策略博弈,一种有效的求解方法是最小极大决策原则(Minimax Decision Criterion),这个原则的意思是每个决策者以最小化所有可能的最大损失的目的来选择策略,在上面的合同博弈例子里,对于球星,他选择策略遵循的原则是所有可能的最小收益中最大值对应的策略,如下图所示,如果他选择策略1,所有的收益中的最小值是30000,如果选择策略2,所有的收益中的最小值是20000,而30000是两者的最大值,所以对于球星来说,他应该选择策略1。我们可以直观验证一下,当球星选择策略1时,经理为了尽量压价可以选择策略C,这样薪资是30000;而如果球星选择策略2,经理对应的还会选择策略C,但此时合同只值20000了,相比较之下,显然选择策略1更保险
在这里插入图片描述
而对于经理来说,他的原则是所有可能的最大收益中最小值对应的策略,如下图所示,策略A时的最大
值是60000,策略B时的最大值是40000,策略C时的最大值是30000;30000是三者的最小值,因此经理应当选择策略C。同样可以直观地验证一下,如果经理选择策略A或者策略B,球星为了抬高合同,可以选择策略2,这时薪资(60000和40000)都比选择策略C的值要大,因此经理选择策略C是最稳妥的
在这里插入图片描述
可以看到球星和经理所选择的策略最终会导致那个$30000的合同,不过这个结果都在双方的预期之内,我们可以直观地验证下,假如球星改变了策略,改成策略2,但因为经理还保持着策略C,这将导致合同变成20000,对球星来说是不划算的;同样的,假如经理改变自己的策略,仍然只会导致对自己更不利的合同。所以这个博弈的结果是一个对双方而言相对最优的结果,双方都只明确了一次策略,就终止了博弈过程,所以说它是一个纯策略博弈。同时在学术上,将这种纯策略博弈的结果称之为均衡点(Equilibrium Point) 或者 鞍点(Saddle Point)

占优策略

在上面的例子里,我们可以很直接地观察到,对于经理来说,策略C可能的两种合同(30000和20000),比策略A和B的都要低,那么即使不采用上面说的Minimax Decision Criterion原则,选择策略C也是很显而易见的结果。我们称策略C是一个占优策略(Dominant Strategy),它主导( dominate)了策略A和策略B,那么在对经理的决策进行考虑时,可以直接将策略A和策略B对应的列消去,这可以让博弈的分析进一步简化
在这里插入图片描述

混合策略

上面的例子恰好是纯策略博弈,博弈的双方应用Minimax Decision Criterion原则选择的策略达到了一个均衡点;但是大部分情况下,博弈双方很难达到一个均衡点,也就是说没法通过纯策略直接达到一个双方都满意的博弈结果,这时候就会涉及到混合策略博弈的理论。

我们来看这个例子:公司 I {\rm I} I和公司 I I {\rm II} II是两个处于竞争状态的公司,最近公司 I {\rm I} I打算推出一款新的产品来扩张市场份额,对于公司 I {\rm I} I来说,它会有一些策略来帮助推广产品;与之相对的,作为竞争者的公司 I I {\rm II} II,势必采取相对的措施来尽可能减少公司 I {\rm I} I抢占的市场份额。这也是一个零和博弈的案例,因为市场份额是一定的,公司 I {\rm I} I占的多一些,公司 I I {\rm II} II必然失去同样多的份额,下面的收益表表述了该问题,公司 I {\rm I} I可以采取1,2和3策略,而公司 I I {\rm II} II可以采取A,B和C策略,收益表单元格的数字表示双方采取相应策略后导致的公司 I {\rm I} I能多出的市场份额
在这里插入图片描述
我们首先还是尝试使用上一节纯策略中的方法来分析。首先看看收益表中是否存在占优策略从而简化博弈模型。可以发现,对于公司 I {\rm I} I来说,策略2相对于1是占优策略;对于公司 I I {\rm II} II,策略B相对于A是占优策略,因此,可以将策略1对应的行和策略A对应的列消去
在这里插入图片描述
然后我们采取Minimax Decision Criterion原则来选择策略。对于公司 I {\rm I} I,策略2时最小的收益是4,策略3时最小的收益是1,两者中4是最大值,因此应当选择策略2:
在这里插入图片描述
对于公司 I I {\rm II} II,策略B时的最大收益是8,策略C时的最大收益是7,那么对于公司 I {\rm I}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值