读书笔记: 博弈论导论 - 总结

读书笔记: 博弈论导论 - 总结

总结

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结。

博弈论

博弈论是关于智能理性决策者的协作和冲突的数学模型的研究。

博弈论的目的可以说是研究寻找博弈均衡的方法。
博弈论的直接目标不是找到一个玩家的最佳策略,而是找到所有玩家的最理性策略组合。
我们称最理性策略组合均衡

博弈论(也叫逆向博弈论)的另外一个作用是机制设计,根据期望的结果,设计一个博弈体系。

博弈论的分类

这本书中将博弈论的只是分为四类:

  • 完整信息的静态博弈
  • 完整信息的动态博弈
  • 不完整信息的静态博弈
  • 不完整信息的动态博弈

博弈论的数学模型

  • 普通形式博弈(normal-form game)的数学表达
    1. 一个有限的玩家集合, \(N = {1, 2, \cdots, n}\)
    2. 每个玩家的纯策略集合的组合, \({S_1, S_2, \cdots, S_n}\)
    3. 一套收益函数, \({v_1, v_2, \cdots, v_n}\),对于每个玩家,每一种所有玩家选择的策略组合,都有一个收益值。
      $v_i: S_1 \times S_2 \times \cdots \times S_n \text{ for each } i \in N $
  • 贝叶斯博弈(Bayesian Game)
    用于描述不完整信息博弈。
    \[ \left \langle N, \{ A_i \}_{i=1}^n, \{ \Theta_i \}_{i=1}^n, \{ v_i(\cdot; \theta_i), \theta_i \in \Theta_i \}_{i=1}^n, \{ \phi_i \}_{i=1}^n \right \rangle \\ where \\ N = \{ 1,2,\cdots, n\} \text{ : is the set of players} \\ A_i \text{ : the action set of player i} \\ \Theta_i \text{ : the type space of player i} \\ v_i : A \times \Theta_i \to \mathbb{R} \text{ : type dependent pay of function of player i} \\ \phi \text{ : the belief of player i with respect to the uncertainty over the other players' types} \\ \phi(\theta_{-i} | \theta_i) \text{ : the posterior conditional distribution on } \theta_{-i} \]

术语

  • 静态博弈(static game) vs 动态博弈(dynamic game)
    静态博弈指所有玩家同时、独立做出选择。也叫做同时博弈(Simultaneous game)
    动态博弈指所有玩家按照次序做出选择。也叫做序贯博弈(Sequential game)、序列博弈。

  • 完整信息博弈(Complete information game) and 不完整信息博弈(Incomplete information game)
    完整信息博弈是指所有知识被所有玩家都了解,就是成为了公共知识。
    不完整信息博弈是指一个玩家不知道其他玩家的部分信息(actions, outcomes, payoffs)。

  • 完美信息博弈(Information perfect game) vs 不完美信息博弈(Information imperfect game)
    完美信息博弈指一个玩家知道对手做出了选择,并且知道对手的选择是什么。比如:围棋。
    不完美信息博弈指一个玩家知道对手做出了选择,但是不知道对手的选择是什么。比如:德州扑克。

  • 普通形式博弈(Normal-Form Game) vs 扩展形式博弈(Extensive-Form Game)
    博弈的数学化定义方式。
    普通形式博弈比较简单,适用描述信息较少的情况,比如:两个玩家的纯策略的静态博弈。
    扩展形式博弈用于形式化描述博弈。无论完美信息还是不完美信息,完整信息还是不完整信息都可以。
    针对不完美信息,支持信息集的概念。
    针对不完整信息,支持Nature和类型概念。

  • Subgame-perfect equilibrium
    这里主要说perfect这个词,这个词和equilibrium用在一起时,常常有精炼(refinement)的意思,表示优化均衡的结果。

  • 序贯(sequential)
    序贯表示连续的。

  • 信念(beliefs),
    玩家i的一个信念就是他的对手们的一个可能的策略组合。

  • 最佳反应(Best Response)
    当其他玩家策略已知时,玩家i的优势策略就是其最佳反应。
    这是博弈论的中心。理性,序贯理性的意味就是最佳反应。均衡的结果也来自于最佳反应。
    最佳反应:对于玩家i,给定其对其他玩家的信念,他会选择在这个信念上对自己最好的行为。

  • 序贯理性(Sequential Rationality)
    在博弈中的每个阶段,玩家都保持理性。

  • 信任系统(a system of beliefs)
    对每个信息集上一个行动的选择概率。见后面的数学定义。

  • 信誉(Reputation)
    在博弈论中,玩家为了证明自己的信誉(自己的类型),会选择一种行为,这种行为只会对自己的类型有益,而对其它类型有损失。

经典博弈问题

  • 囚徒困境(Prisoner's Dilemma)
    两个囚徒选择沉默(mum)和告密(flink)的一个静态博弈问题。
玩家2
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值