博弈论自学(三)

一、策略
    策略:是参与者在博弈开始之前制定的一个完备行动计划,它明确了在参与者可能遇到的每一种情况下对可行行动的选择。
    混合策略(随机策略):参与者以一定概率分布从几种纯策略中随机选择
    例子:下表格可以看出女生和男生在同一地方效用就低,不在同一地方效用就高
                                          单相思(只是觉得这个例子有意思分享下)

男生
图书馆游泳池
女生图书馆-1,12,-1
游泳池2,-1-1,1

    补充说明:① 在混合策略中,被赋以正概率的纯策略构成一个集合,称为该混合策                               略的“支撑”;
                      ② 一个给定的纯策略可能会严格劣于一个混合策略,即使这个纯策略并                              不严格劣于其他纯策略。
                          例子:如下图,乙对于任何策略都没有偏好,C策略既不劣于A也不劣                                       于B。当选择D,C优于B,当选择E,C优于A,所以从纯策略                                         看C策略既不劣于A也不劣于B,但是将A,B组合,用掷硬币的                                         方式选择A或者B,那么选择A,B混合策略的不论D还是E都是                                           2/3,显然优于C

DE
A3,-0,-
B0,-3,-
C1,-1,-

                      ③ 一个给定的纯策略可以是针对对手的一个混合策略的最优反应,即使                              这一纯策略不是针对对手的任何一个纯策略的最优反应。
                          例子:将上述例子中的C对应的D和E都是(2,-),乙通过抛硬币的方式                              选择D还是E,②中的图就变成下图,这样就满足说明③

(D,E)
A3/2,-
B0,-
C2,-

                      ④ 给定其他参与者的策略,参与者的一个混合策略要成为其最优反应,                              该混合策略的支撑中的每一个纯策略(即概率大于0的纯策略)也必须                            是其最优反应。

二、双人零和博弈
    零和博弈:在任何一个状态下,各方的所得之和相加为零(通俗的说就是其他参与者的所得就是我的所失),零和博弈属于严格竞争博弈。
    例子:两人打牌,A赢10块,B输10块,A和B的总和为0,就是零和博弈
    双人有限策略零和博弈:可以从双变量矩阵中省略列参与者的收益(直接取反就行,所以可以省略),又称为矩阵博弈。
    1.仅考虑纯策略的情况:如果参与者i事先宣布他会采取策略s_{i},他能获得的最低收益就称为他对于该策略的安全水平;能够给参与者i带来最高安全水平的策略称为他的安全策略(最大最小策略),相应的最高安全水平称为参与者在该博弈中的安全水平(最大最小值
        以A表示参与者i的收益矩阵[a_{ij}],参与者的目标是:
\max_{i\epsilon s_{1}}\min_{j\epsilon s_{2}}a_{ij},相应的,参与者的策略称为最大最小策略
        个人理解:最大最小考虑的是极端情况,参与者认为对方肯定会选择让自己亏损最大的决策。这时我们关心的就是谁是先决策谁是后决策若先决策那么会考虑当自己决策完对方肯定会选择让自己亏损最大的决策,那么就要在对方认为自己最小的所有决策当中选择最好的,即:矮个子里拔将军同样的若后决策,在最大化自己决策的情况下让对方的收益最小,也就是最小最大策略\min_{j\epsilon s_{2}}\max_{i\epsilon s_{1}}a_{ij}即:尖子班里挑最差的。
         个人感觉最大最小策略是博弈的一种保守策略,一切从最坏的角度考虑收益。
         证明: 
\max_{i\epsilon s_{1}}\min_{j\epsilon s_{2}}a_{ij}\leq\min_{j\epsilon s_{2}}\max_{i\epsilon s_{1}}a_{ij}(瘦死的骆驼比马大)
                   首先,对于任意的s_{1}s_{2}有:a_{ij}\leq \max_{s_{1}} a_{ij}
                              对左右取j的最小值有:min_{j\epsilon s_{2}}a_{ij}\leq\min_{j\epsilon s_{2}}\max_{i\epsilon s_{1}}a_{ij}
                              再左右取i的最大值有:\max_{i\epsilon s_{1}}\min_{j\epsilon s_{2}}a_{ij}\leq\min_{j\epsilon s_{2}}\max_{i\epsilon s_{1}}a_{ij}
        
最小最大定理:对于每个具有有限数量纯策略的双人零和博弈,都存在一个数,参与者1存在一个(混合)策略能保证他的总收益至少为v,参与者2存在一个(混合)策略能保证参与者1的收益至多为v。
        对于矩阵博弈,一定存在策略组合(x*,y*)满足\max_{x\epsilon s_{1}} xA\dot{y} = \min_{x\epsilon s_{2}} \dot{x}Ay,而且策略组合(\dot{a},\dot{b})是一个混合策略均衡。(证明略~)

  • 30
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值