博弈论简述 第二章 完全信息动态博弈 自用整理中

持续更新中

博弈论简述系列主要参考本校授课老师的PPT,相当于把老师的PPT简单过了一遍,加上自己的理解,但是个人觉得PPT内容系统结构不太行,后面有时间再慢慢调整。

没有什么技术性的内容,主要是简述。后面准备开一个系列,认真研读一下一些技术性的内容。

一、完美信息动态博弈

1、完美信息动态博弈的描述

静态博弈存在的问题:纳什均衡不唯一。
博弈树:用于表述动态博弈(Dynamic Games)或序贯行动博弈 Sequential-Move Games
博弈树的虚线:表示虚线以上是一个信息集。即虚线下面的人不知道虚线以上的信息,即他们不知道自己从哪来的。
关于完美信息和完全信息(多方参考,结合自己的理解):
完美信息:参与者在行动时知道过去所有人的所有行动信息。(在博弈树中,博弈的所有信息集都只包含一个决策结,即参与者知道自己怎么到达这个地方的,也就是说,没有虚线!)
完全信息:所有人知道 彼此所有相关信息(收益函数),且所有人知道收益函数是公开的。

海萨尼转换:通过引入一个预先行动的自然,把不完全信息静态博弈,转化成一个不完美信息动态博弈。自然在所有参与者之前行动。自然随机/以一定概率决定参与者的类型。不知道其它参与者类型的不完全信息,被转换成:不知道自然的行动的不完美信息。

1.2子博弈精炼纳什均衡

(1)子博弈

        1)从一个单点决策节 开始,之后的所有枝节包含其中
        2)子博弈不能分割信息集
例1(虚线内部是一个子博弈):
例2:

(2)不可置信承诺(或威胁)

考虑房地产开发博弈: 有两个子博弈
纳什均衡:(开发,{不开发,不开发}):
B说:不管A是否开发,B均选择不开发。
但是在右侧的子博弈中,如果A选择不开发,开发上B的最优策略因该是开发,所以说B说的话不可信。因此,该纳什均衡不是右侧子博弈的纳什均衡。
被划去的是包含了不可置信的策 所构成 的N E,这些是不能作为模型预测结果的,必须 去除

(3)子博弈精炼纳什均衡

在一个完美信息的动态博弈中,一个策略组合,满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,即在所有子博弈中均达到收益最优。
注:
        1)子博弈精炼纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定
        2)子博弈精炼纳什均衡必须对博弈方在所有选择节点处的选择做出规定,包括最终不在均衡路径上的节点
        3)求解方法:逆向归纳法

1.3逆向归纳法

(1)概念:顾名思义,倒推,从最后一个开始往前推。
(2)举例:海盗分赃
问题: 5个海盗抢到了100颗相同的宝石,经商议,他们决定将宝石这样分:
        1)抽签决定自己的号码1,2,3,4,5
        2)首先,由1号提出分配方案,然后5人进行表决,如果同意这种方案的人达到半数,就按照1号的提案进行分配,否则,他将被扔入大海喂鲨鱼,然后由接下来的人继续重复提议,没提议的人作出表决。
        假设每个海盗都是绝顶聪明且自私,也不互相合作,1号海盗如何提议?
解:由逆向归纳法,先从5号开始:
        5号:分自己100,不需要其他任何人同意
        4号:分自己100,自己赞同,5号得0,反对无用
        3号:分5号1枚并得到5号的同意;分自己99,自己同意;4号得0枚,反对无用(分析:如果这里分给4号1枚,他肯定还是反对,所以不分给他,分给5号1枚,若5号反对,那么就到了4号提议的情形,5号将一无所获,所以前面给他的当然美美接受啦,后面的分析也是如此,就不赘述了)
        2号:分给4号1枚,得到4号的同意;分给自己99枚,自己同意;3、5号反对无用
        1号:分给3、5号海盗各1枚,获得3、5号的同意;分给自己98枚,自己同意;分给2、4号海盗0枚,反对无作用
均衡结果是(98,0,1,0,1)

二、经典动态博弈模型

2.1双寡头产量竞争的斯坦伯格模型

        stackelberg game,先动优势
问题:有两厂商A、B, A为领头企业,先行动,选择产量q1;B为跟随者,观察到q1 后,选择产量q2
斯坦伯格模型与古诺模型之间的比较(先动优势的解释

2.2完全信息动态博弈下的伯川德模型

后动优势
逆向归纳法(backward induction)是博弈论中求解两阶段博弈模型的一种方法。下面给出求解该模型的 MATLAB 代码示例。 假设有一个两阶段博弈模型,第一阶段有两个玩家选择策略 $A$ 或 $B$,第二阶段有一个玩家选择策略 $X$ 或 $Y$。该博弈模型的收益矩阵如下: | | X | Y | | ---- | ---- | ---- | | A | 5,5 | 1,6 | | B | 2,4 | 4,3 | 根据逆向归纳法,我们先考虑第二阶段的博弈,然后再根据第二阶段的结果来确定第一阶段的最优策略。 第二阶段的博弈是一个二人零和博弈,可以使用最小最大值算法(minimax algorithm)求解。即对于玩家 $X$,其最大收益为 $max\{5,1\}=5$;对于玩家 $Y$,其最大收益为 $max\{6,3\}=6$。因为这是一个二人零和博弈,所以玩家 $X$ 的最大收益等于玩家 $Y$ 的最小收益,即 $5=6$。 因此,第二阶段的结果是 $(X,Y)$,玩家 $X$ 和 $Y$ 均获得收益 $5$。 接下来,我们考虑第一阶段的博弈。根据第二阶段的结果,我们可以得到下面的收益矩阵: | | X=5 | Y=5 | | ---- | ---- | ---- | | A | 5,5 | 1,6 | | B | 2,4 | 4,3 | 我们再次使用最小最大值算法求解。对于玩家 $1$,其最大收益为 $max\{5,4\}=5$;对于玩家 $2$,其最大收益为 $max\{5,6\}=6$。因为这是一个二人零和博弈,所以玩家 $1$ 的最大收益等于玩家 $2$ 的最小收益,即 $5=5$。 因此,第一阶段的最优策略是 $(A,X)$,玩家 $1$ 和 $2$ 均获得收益 $5$。 下面是用 MATLAB 求解该模型的代码: ```matlab % 收益矩阵 payoff = [5 1; 2 4; 5 6; 4 3]; % 第二阶段博弈的最大收益 max_payoff_X = max(payoff(1:2,1)); max_payoff_Y = max(payoff(3:4,2)); % 第二阶段博弈的结果 result = [max_payoff_X max_payoff_Y]; % 第一阶段博弈的最大收益 max_payoff_1 = max(result(:,1)); max_payoff_2 = max(result(:,2)); % 第一阶段博弈的最优策略 if max_payoff_1 > max_payoff_2 optimal_strategy = [1 1]; else optimal_strategy = [2 1]; end % 显示结果 disp('第二阶段博弈的结果:'); disp(result); disp(['第一阶段博弈的最优策略是 (' num2str(optimal_strategy) '),最大收益为 ' num2str(max(max(result)))]); ``` 运行结果如下: ``` 第二阶段博弈的结果: 5 5 第一阶段博弈的最优策略是 (1 1),最大收益为 5 ``` 其中,`payoff` 变量表示收益矩阵,`max_payoff_X` 和 `max_payoff_Y` 变量表示第二阶段博弈的最大收益,`result` 变量表示第二阶段博弈的结果,`max_payoff_1` 和 `max_payoff_2` 变量表示第一阶段博弈的最大收益,`optimal_strategy` 变量表示第一阶段博弈的最优策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值