数学建模(十)博弈论

在前一讲中,我们讨论了决策论,其中决策者面对的结果和支付只依赖于他本人的决策,而不依赖一个或者多个其他参与者的决策。决策论最后决定的结果可能存在机会和风险,但不会与另一个参与者的决策有关系。比如假定两个国家在军备竞赛而希望裁军,如果一方裁军,这个国家的结果不仅依赖于该国的决策,也依赖于第二个国家的决策。
如果只依赖于一个参与者,我们把这类决策模型称为决策论;
如果结果依赖于多于一个参与者的决策,我们把这类决策模型称为博弈论;

在这里插入图片描述
10.1:博弈论:完全冲突:
按照参与者之间的冲突是完全冲突还是部分冲突对博弈论进行分类。进一步把完全冲突的博弈按照最优策略是纯策略还是混合策略进行分类。

在这里插入图片描述
举例1:一个有纯策略的完全冲突博弈:
例如有两家连锁店,都同时想在两个城市开连锁店,假设为A,B两地,如图所示是两个连锁店所占的市场份额:
在这里插入图片描述
在这里插入图片描述
从上图可以发现两家连锁店其中一家每得到一点份额都是需要另一家失去一点份额,而市场总额是1,并且两家连锁店的决策结果不仅取决于自身还取决与对手的策略。这个博弈是完全冲突的。
定义: 纯策略是参与者可采取的行动的集合,每个参与者选定的策略共同决定博弈的结果以及每个参与者的花费。
通过图中数据我们也可以发现,无论甲连锁店开在何处,乙连锁店只需要开在A地就可以始终占优。占优策略:
定义:策略A占优与策略B,是指策略A的每一个结果至少和B的对应结果一样好,并且至少A的某一个结果严格优于B的对应结果。占优原理:在严格冲突博弈中,一个理性的参与者应该永远不要采用被占优的策略。
同时也可以发现结果(A,A)即两个连锁店都开在A地时,此时没有任何一个参与者可以单方面改变策略而使得自己获得改善,这种情况我们称为纳什均衡: 表示这样一个结果,任何一个参与者都不能通过单方面更改策略而获得好处。同时由于这些每个结果和是1,完全冲突博弈也称作常数和博弈: 如果对每一个可能的结果,每个参与者的支付之和是同一个常数,这个博弈称为完全冲突博弈。

举例2:一个有混合策略的完全冲突博弈:
这里是以击球手与发球手来说明,发球手可以发出两种球,而接球手也可以接两种球,发球手选择一种球发出,而接球手需要提前判断并采取相应的措施,一个参与者总是可以通过单方面更改策略而使自己得到改善。这里就有混合策略:对一个参与者的纯策略的随机化,即对参与者的每一个纯策略指定一定的概率,该概率表示这个纯策略被采用的相对频率。

10.1:博弈论:部分冲突:
在前两个例子中,决策者的冲突是完全的,意思是没有参与者在不伤害其他参与者的前提下能够使自己得到改善。下面的例子就是部分冲突的:
例如两个在军事竞赛的国家已经陷入僵局,假如国家A有两种选择,裁军或者保持,国家B也有同样的两种选择:
在这里插入图片描述
所以如图所示,如果两个国家都保持军备那么就是次差选项,但是两个国家都可以通过改变策略在不伤害对方的基础上使得自己的情况得到改善,这种博弈就是部分冲突。我们将研究为了使每个国家都得到改善,需要克服怎样的障碍,我们可以看到许多博弈中合作是有益的,但可能会存在很强的不合作动机
定义:如果对于每一个可能的结果,每个参与者的支付之和不是同一个常数,此类博弈是部分冲突的。

在研究部分冲突时的一个重要区别是博弈如何进行的,有没有交流,有没有仲裁,交流的形式可能是自己先出招并告知另一参与者你已经出招,以便威胁阻止对手选择对你不利的策略,或者承诺对手选择你所喜欢的策略时,你会选取某个特定的策略。最后仲裁是一种根据每个参与者的策略优势找到的一个基于协商获得的公平解的方法。

10.2 完全冲突博弈的线性规划模型:纯策略与混合策略
如之前说的击球手与发球手:
在这里插入图片描述
现在需要解除策略的最优混合方式,每个参与者决定如何采用每个策略。如果我们知道每个参与者采用其中两个策略的概率,计算击球平均分就是求期望值,若投球手以1/2的概率采用快球策略,以1/2的概率采用弧线球策略,击球手以3/4的概率采用快球策略,以1/4的概率采用弧线球策略,那么其击球平均分为:
E=0.41/23/4+0.11/21/4+0.21/23/4+0.31/21/4=0.275;
其决策树如下:
在这里插入图片描述
首先对击球手进行建模:
首先考虑击球手的决策,他希望选择猜测快球或者弧线球的某种组合,使击球平均分最大。
我们定义以下变量:
A:击球平均分 x:击球手猜中快球的比例 1-x击球手猜中弧线球的比例。
目标函数: 击球手的目标是:MAX A
约束: 击球手为了使击球平均分最大,面临什么样的约束呢?投球手可以全部投出快球或者弧线球,也就是说,投球手可以采用它的两个纯策略之一来应对击球手的混合策略,这两个纯策略给击球手最大化击球平均分能力施加了一个上限。
若全为快球:
EV(PF)=0.4x+0.1(1-x);
若全为弧线球:
EV(PC)=0.2x+0.3(1-x);
其中0<x<1;
所以组合起来,我们有如下针对球手的优化问题:
MAX A:
s.t.
A<0.4x+0.1(1-x);投球手的快球策略
A<0.2x+0.3(1-x);投球手的弧线球策略
采用线性规划的方法,对上述约束问题进行图形求解:
在这里插入图片描述
可以解出x=0.5时有最优解。

对投球手的决策进行建模:
我们现在考虑投球手的决策,他希望选择投出快球或者弧线球的某种组合
定义变量:A:击球平均分;y:投球手投出快球的比例;1-y:投球手投出弧线球的比例;
目标函数:投球手的目标是MIN A
约束:投球手为了使击球平均分最小,面临什么样的约束?击球手可以全部猜测快球或者弧线球。也就是击球手可以采用两个纯策略之一应对投球手的混合策略,这两个纯策略给投球手最小化击球平均分的能力施加了一个下限。所以有下面两个约束表达式:
A>0.4y+0.2(1-y):采用纯快球;
A>0.1y+0.3(1-y);采用纯弧线球;
所以最后的优化问题转化成:
MIN A
s.t. A>0.4y+0.2(1-y):采用纯快球;
A>0.1y+0.3(1-y);采用纯弧线球;
0<y<1;
通过几何求解:
在这里插入图片描述
最优解的几何解释:
如果同时考虑击球手和投球手的决策,我们就有如下的博弈树:
在这里插入图片描述
所以期望值是:
A=0.4xy+0.1x(1-y)+0.2(1-x)y+0.3(1-x)(1-y)其中x是击球手猜快球的比例,y是投球手选择快球的比例,通过对其进行代数求解,可以发现其鞍点在点x=0.5和点y=0.25处。

总结:
可以发现如果x=0.25,无论投球手怎么样投球,击球手都能得到0.25分,同样的如果y=0.25,不论击球手选择什么样的猜测,击球手都能获得0.25分,所以任何参与者都可以从不采用最优策略的对手处占便宜。

10.3:与大自然的博弈:
上一节中我们看到击球手从他的最优问题中得到的有用信息:如何找到一个策略保证他希望的结果,而无论他面对的投球手采用什么策略,在经济领域和其他其他应用中,“保证能够得到的结果”的想法是一种重要思想。同时也可以考察投球手希望最小化击球手的击球平均分的优化问题,击球手可能会得到更为有用的信息。

举例:考虑下面情形,企业计划进行小规模生产还是大规模生产,经济在未来几年的一段时间可能差也可能好。
在这里插入图片描述
这里假如经济差的概率是0.4,那么小规模生产的期望利润是:0.4500+0.6300=380;大规模生产的期望利润是:0.4100+0.6900=580;那么在这种假设下,企业应该实施大规模生产的利润。
这里我们需要考虑为企业找到一条策略,无论经济情况如何,保证企业能够得到的结果。

企业的博弈: 为企业找到一个策略,无论经济情况如何,保证企业得到的结果。
变量: V 企业纯利润,x:企业采用小规模生产的策略所占比例;(1-x)企业采用大规模生产的时间所占比例。
有V<500x+100(1-x):经济为全差时的利润;
V<300x+900(1-x):经济为全好时的利润;
所以总结为下列的线性规划优化问题:
Max V
s.t. V<500x+100(1-x):
V<300x+900(1-x):
0<x<1;
对其进行线性规划,可以发现当解为0.8时有最优解,即企业在80%的时间进行小规模生产,在20%的时间进行大规模生产,这是一个保守策略,无论经济总是差或者总是好,或者差与好的混合,这都是一个保守的策略。

经济的博弈: 经济针对企业所能够做的最坏情形是什么。
变量: V 企业纯利润,y:经济采用差策略所占比例;(1-y)经济采用好策略时间所占比例。
有V>500y+300(1-y):企业采用纯小规模生产的策略;
V>100y+900(1-y):企业采用纯大规模生产;
所以总结为下列的线性规划优化问题:
Max V
s.t. V>500y+300(1-y):
V>100y+900(1-y):
0<y<1;
对其进行线性规划,可以发现当解为0.6时有最优解,即经济60%的策略是差,40%的概率为好。

现在企业可以同时利用企业的博弈和经济的博弈来为自己定义一些选项:当企业不能确定经济状况如何时,应当采用保守策略,80%的概率进行小规模生产,20%的概率进行大规模生产,然而从经济的博弈看,如果企业认为经济将会在超过60%的时间为差,那么应该采用小规模生产的策略从而获得超过原先的利润。

10.4.部分冲突博弈:经典的两人博弈:
在部分冲突博弈中,参与者的目标是什么?在完全冲突的情形中,每个参与者希望最大化他的支付,在这个过程中同时最小化另一个参与者的支付。但是在部分冲突博弈中,一个参与者可能会有以下目标中的任意一个目标:
1.最大化他的支付: 每个参与者选择一个策略,希望最大化他的支付。当一个参与者推理另一个参与者应该如何应对时,这个参与者不会把保证另一个参与者得到“公平的”结果作为目标,参与者最大化他自己的支付。
2.找到一个稳定的结果: 参与者通常会有兴趣找到一个稳定的结果,纳什均衡结果是任何一个参与者都不能单方面得到进一步改善的结果,因此代表了一种稳定的结果。
3.最小化对手支付: 假设有两家公司,其产品市场相互作用,但不是完全冲突的,每家公司可能从最大化自身支付开始,但如果对结果不满意,这两家公式可能会变成敌对,并选择最小化另一支付的目标,也就是说一个参与者可能会放弃它最大化自己利润的长期目标,并选择最小化对手利润的短期目标。
4.找到一个共同公平的结果,这可能是在仲裁人的帮助下得到的: 两个参与者可能都对当前的状况不满意,相互最小化对方所得到的结果可能对双方都是很差的,在这种情况下,参与者可能会同意接受仲裁者的决策,而仲裁者必须确定一个公平的解。

  • 24
    点赞
  • 125
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值