矩阵博弈及其纳什均衡

在众多博弈模型中,占有重要地位的是二人有限零个对策,又称为矩阵博弈,这对策是目前为止在理论研究和求解方法方面都比较完善的一个博弈。

矩阵博弈

矩阵博弈就是二人有限零和博弈,或有限二人零和博弈;
在众多博弈模型中占有重要地位,是到目前为止,在理论研究和求解方法方面都比较完整的一类博弈。

数学定义:
假设玩家一有m个策略,玩家二有n个策略,那么构建一个m*n的矩阵,对应值为玩家一的收益。

又因为是零和博弈,所以玩家二的收益矩阵就是负的玩家一的收益矩阵。

矩阵博弈通常记为:
G = S 1 , S 2 , A G={S_1,S_2,A} G=S1,S2,A

纯策略矩阵博弈的纳什均衡解

saddle points鞍点:
同时满足某一行的最小值,某一列的最大值
就是纯策略的纳什均衡

为什么要这样:
零和博弈,参与者2的pay与参与者1的相反,所以固定一行,参与者1可以推导参与者2会选择哪个;
也就是已经知道对方贪心会选择最利于自己的那个,那么自己的一个有效的做法是使得损失最小

两个人都这样,然后交点就是一个纳什均衡

示例

最大最小、最小最大原则
在这里插入图片描述
如图,玩家一的收益矩阵。
最小最大原则
当玩家一选 α 1 \alpha_1 α1时,理性玩家二会选择 β 3 \beta_3 β3,则玩家一的收益为-9,往下同理,略,所以玩家一会在这里边挑一个最大的也就是3.

最大最小原则
当玩家二选择 β 1 \beta_1 β1时,玩家一 会选择 α 3 \alpha_3 α3,收益为7,往后同理,那么对于玩家二来说,会选择让玩家一收益最小的策略,也就是使玩家一收益为3。
综上,形成纳什均衡 ( α 2 , β 2 ) (\alpha_2,\beta_2) (α2,β2)

用公式简洁表示:
m a x i m i n j a i j = m i n j m a x i a i j = a 22 = 3 max_imin_ja_{ij}=min_jmax_ia_{ij}=a_{22}=3 maximinjaij=minjmaxiaij=a22=3
可以看出, a 22 a_{22} a22是矩阵A所在行的最小元素也是所在列的最大元素。

所以,一个定理:矩阵博弈在纯策略定义下有纳什均衡的充要条件是:存在一个策略组合,对应的那个玩家一的收益是所在行的最小元素也是所在列的最大元素。即是鞍点。

性质

在这里插入图片描述
1.无差别性
2.可交换性
如图示例子,总共有四个五,四个纳什均衡(即纳什均衡解不唯一)。

混合策略矩阵博弈纳什均衡

混合策略之前的文章讲过了,这里省略。
在这里插入图片描述
假如玩家一以概率p选择第一行,1-p选择第二行,
如果想要使得第二个人看不出第一个人会用什么策略,也就是使得:
a p + d ( 1 − p ) = b p + c ( 1 − p ) ap+d(1-p)=bp+c(1-p) ap+d(1p)=bp+c(1p)
解得: p = c − d ( a − b ) + ( c − d ) p=\frac{c-d}{(a-b)+(c-d)} p=(ab)+(cd)cd
当p取该值时,玩家一的期望收益:
v = a p + d ( 1 − p ) = a c − b d a − b + c − d v=ap+d(1-p)=\frac{ac-bd}{a-b+c-d} v=ap+d(1p)=ab+cdacbd

随机博弈

随机博弈

本文部分图片来源

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值