计算博弈笔记(一)博弈论

本文概述了博弈论的基本概念,包括参与人、决策节点、支付函数,以及完全信息与不完全信息博弈的区别。深入解析了策略的优劣势和占优策略均衡,展示了策略型与展开型表示法,并介绍了帕累托最优和纳什均衡等解的概念。此外,文章还涵盖了海萨尼转换、贝叶斯博弈和精炼贝叶斯均衡等核心概念。
摘要由CSDN通过智能技术生成

认识博弈

博弈的基本概念

  • 参与人i
  • 参与人集合N
  • 动作
  • 决策节点:参与人从动作空间中选择一个动作的过程的抽象
  • 支付函数/效益函数u:对特定参与人的一个输入为局面信息,输出为该参与人的损失/收益情况的函数

博弈中的信息

  • 信息:关于博弈的知识

信息集

  • 信息集:某个参与人在某个决策节点的全部信息;也把所有信息集相同的节点称为一个信息集
  1. 集合中的每个节点都是同一个参与人进行决策
  2. 参与人知道博弈进入该集合,但是不知道自己具体在哪一个节点
  3. 每一个信息集中节点的可选动作都相同

完全信息博弈

  • 每个参与人都知道所有参与人的支付函数的博弈
  • 对称信息:所有参与人在同一时间的信息完全相同
  • 相互知识:所有人都知道的信息
  • 共同知识:信息A:信息A和信息B是相互知识。那么若信息A是相互知识,信息B就是共同知识。

完美信息博弈

  • 判据:没有多节点信息集
  • 意义:没有任何两个参与人同时行动,并且所有后行动者能够确切地知道先行动者选择了什么行动,所有参与人都可以观测到自然的决策
  • 完美回忆:没有参与人会忘记自己之前知道的事情

不完全信息博弈

  • 私有信息:只有部分参与人了解的信息
  • 定义:存在私有信息的博弈
  • 也称为贝叶斯博弈

博弈中的策略

  • 策略:把一个博弈中某个参与人在他的所有信息集下的决策偏好称为该参与人的策略
  • 策略空间S
  • 优于:给定某参与人的两个策略 s i , s i ′ s_i,s_i' si,si,若在其他参与人采取任何策略 s − i s_{-i} si时都有
    • u i ( s i , s − i ) > u i ( s i ′ , s − 1 ) u_i(s_i,s_{-i})>u_i(s_i',s_{-1}) ui(si,si)>ui(si,s1),则称 s i s_i si强优于 s i ′ s_i' si,也称 s i ′ s_i' si强劣于 s i s_i si,并称 s i ′ s_i' si是强劣势策略
    • u i ( s i , s − i ) ⩾ u i ( s i ′ , s − 1 ) u_i(s_i,s_{-i})\geqslant u_i(s_i',s_{-1}) ui(si,si)ui(si,s1),且在至少一个其他参与人的策略组合 s − i s_{-i} si下有 u i ( s i , s − i ) > u i ( s i ′ , s − 1 ) u_i(s_i,s_{-i})>u_i(s_i',s_{-1}) ui(si,si)>ui(si,s1),则称 s i s_i si弱优于 s i ′ s_i' si,也称 s i ′ s_i' si弱劣于 s i s_i si,并称 s i ′ s_i' si是弱劣势策略
    • u i ( s i , s − i ) ⩾ u i ( s i ′ , s − 1 ) u_i(s_i,s_{-i})\geqslant u_i(s_i',s_{-1}) ui(si,si)ui(si,s1),则称 s i s_i si极弱优于 s i ′ s_i' si,也称 s i ′ s_i' si极弱劣于 s i s_i si,并称 s i ′ s_i' si是极弱劣势策略
  • 优策略:根据优于强度的不同可分为以下三个级别
    • 强优策略:若某个参与人的给定策略强优于他的任何其他策略,那么他的该策略就是他的强优策略
    • 弱优策略:若某个参与人的给定策略弱优于他的任何其他策略,那么他的该策略就是他的弱优策略
    • 极弱优策略:若某个参与人的给定策略极弱优于他的任何其他策略,那么他的该策略就是他的极弱优策略
  • 占优策略均衡:在一个博弈中,当每个参与人都有强优势策略 s i s_i si,则称策略组合 s ∗ = ( s 1 ∗ , ⋯   , s n ∗ ) s^*=(s_1^*,\cdots,s_n^*) s=(s1,,sn)为该博弈的占优策略均衡
  • 重复剔除的占优策略均衡:在一个博弈中,如果重复剔除强劣势策略后,只剩一个策略组合,则称这一策略组合为重复剔除的占优策略均衡
    • 重复剔除占优可解的

博弈的表示

策略型表示

又叫标准型表示、矩阵式博弈,主要用于静态博弈,用于表示参与人同时做出决策。这种表示形式需要给出参与人集合、每个参与人的动作空间和每个参与人在每一种决策类型下的效益。

展开型表示

又叫扩展式表示,主要用于研究和分析多阶段的动态博弈。这种表示形式需要给出参与人集合、参与人行动顺序、参与人动作空间、信息集合、效益函数和外生事件的概率分布。展开型表示的博弈树中,后续节点指节点的子树上的节点,x跟随y表示x是y的后续节点

  • 节点:节点间满足传递性和反对称性,因而具有严格偏序关系
  • 可达:两个节点间存在顺序关系,则称这两个节点可达
  • 路径:两个具有先后关系的节点间的节点序列
  • 历史:从树根节点开始的一条路径
  • 终止历史:到叶节点的历史
  • 展开式表示的形式化描述
    Γ = < N , ( A i ) i ∈ N , H , P , ( I i ) i ∈ N , ( μ i ) i ∈ N > \Gamma=<N,(A_i)_{i\in N},\mathbb H,P,(\mathbb I_i)_{i\in N},(\mu_i)_{i\in N}> Γ=<N,(Ai)iN,H,P,(Ii)iN,(μi)iN>
  • 求解方法:转化法、递归法(重复剔除劣策略)
  • 子博弈:对于一个由一个单信息集节点及他的所有后续节点构成的博弈,如果其中所有节点所在的信息集中的所有节点都在这一博弈中,那么这个博弈被称为原博弈的子博弈;原博弈也是自身的一个子博弈;

博弈的解

帕累托最优

纳什均衡

  • 最优反应:在给定局面下,参与人i的最优反应是指能使得该参与人效用函数最大化的一个或一组动作
  • 纳什均衡:纳什均衡是一种局面,在这一局面下,所有参与人都采取了最优反应

纳什均衡存在性定理一:有限博弈至少存在一个纯/混合纳什均衡
纳什存在性定理二:若每个参与人的纯策略空间是欧氏空间中的非空有界闭凸集,支付函数是连续拟凹的,那么存在一个纯策略纳什均衡
纳什存在性定理三:若每个参与人的纯策略空间是欧氏空间中的非空有界闭凸集,支付函数是连续的,那么存在一个混合策略纳什均衡

  • 强纳什均衡:在一个纳什均衡中,若所有人的最优反应都唯一,则该纳什均衡是一个强纳什均衡;反之,则该纳什均衡是一个弱纳什均衡

子博弈精炼纳什均衡

  • 如果一个纳什均衡策略在博弈的每一个子博弈上都给出纳什均衡策略,那么这一策略被称为子博弈精炼纳什均衡
  • 涵义:无论过去发生什么事情,参与人在每一次决策时都应做出收益最大化的决策
  • 典型案例:斯坦克尔伯格均衡、鲁宾斯坦恩-斯塔尔议价模型

无限期轮流出价博弈唯一的子博弈精炼纳什均衡:
x ∗ = 1 − δ 2 1 − δ 1 δ 2 x^*=\frac{1-\delta_2}{1-\delta_1\delta_2} x=1δ1δ21δ2

博弈中的效用

冯·诺依曼-摩根斯坦定理

纯/混合策略博弈

纯策略集合

对参与人i,他的纯策略集合 S i S_i Si指该参与人在所有信息集下的可选策略集的笛卡尔积。

混合策略

对参与人i,给定他的纯策略集合 S i S_i Si,他的混合策略 σ i \sigma_i σi S i S_i Si上的一个概率分布。

行为策略

对参与人i,给定一个信息集和这一信息集上的动作空间,他的一个行为策略是指这一动作空间上的一个概率分布

重复博弈

  • 阶段博弈:在重复博弈中,每次博弈被称作阶段博弈
  • 单纳什均衡的有限次重复博弈的均衡定理:若 Γ \Gamma Γ是阶段博弈, Γ ( T ) \Gamma(T) Γ(T)是重复T次的重复博弈,且 Γ \Gamma Γ有且仅有一个纳什均衡,那么重复博弈 Γ ( T ) \Gamma(T) Γ(T)的子博弈精炼均衡在阶段博弈中都是纳什均衡
  • 无限次重复博弈的均衡定理: Γ \Gamma Γ是阶段博弈, Γ ( ∞ , δ ) \Gamma(\infty,\delta) Γ(,δ)是以 Γ \Gamma Γ为阶段博弈的折现因子为 δ \delta δ的无限次重复博弈, e ∗ e^* e是一个纳什均衡的的效益向量,则若有一个可行的效益向量 v ∗ v^* v对每个参与人都大于 e ∗ e^* e,则存在一个 δ ∗ \delta^* δ使得对于所有 δ > δ ∗ \delta>\delta^* δ>δ都有一个子博弈精炼纳什均衡的效益向量满足 v ∗ v^* v

贝叶斯博弈

海萨尼公理:关于博弈参与人的类型分布函数 p ( θ 1 , ⋯   , θ n ) p(\theta_1,\cdots , \theta_n) p(θ1,,θn)是所有参与人的共同知识。

  • 海萨尼(Harsanyi)转换:通过引入一个虚拟的参与人——“自然”(Nature),来对博弈中的相关局中人的不确定性因素进行“行动”,得到其确定性结果(特性,type),然后告知相关局中人,使得博弈继续分析下去,从而将不完全博弈转换为完全不完美信息博弈
  • 参与人类型集 Θ i \Theta_i Θi
  • 信念函数 p i p_i pi:从 Θ i \Theta_i Θi映入 Δ ( Θ − i ) \Delta(\Theta_{-i}) Δ(Θi)的映射,其中 Δ ( Θ − i ) \Delta(\Theta_{-i}) Δ(Θi) Θ − i \Theta_{-i} Θi上的一个概率分布集
  • 信念一致性:如果存在一个概率分布 P \mathbb P P满足下述条件,我们就说信念一致性成立:
    p i ( θ − i ∣ θ i ) = P ( θ i , θ − i ) ∑ t − i ∈ Θ − i P ( θ i , t − i ) p_i(\theta_{-i}|\theta_i)=\frac{\mathbb P(\theta_i,\theta_{-i})}{\sum_{t_{-i}\in \Theta_{-i}}\mathbb P(\theta_i,t_{-i})} pi(θiθi)=tiΘiP(θi,ti)P(θi,θi)
  • 如果对于一个博弈,其信念一致性成立,则该博弈是贝叶斯博弈
  • 期望效用函数:给定参与人类型 θ i \theta_i θi,在不知道其他参与人确切类型 θ − i \theta_{-i} θi的情况下,参与人将采取最大化如下期望效用函数的策略 s i ( θ i ) s_i(\theta_i) si(θi)
    v i = ∑ θ − i p i ( θ − i ∣ θ i ) u i [ s i ( θ i ) , s − i ( θ − i ) ; θ i , θ − i ] v_i=\sum_{\theta_{-i}}p_i(\theta_{-i}|\theta_i)u_i[s_i(\theta_i),s_{-i}(\theta_{-i});\theta_i,\theta_{-i}] vi=θipi(θiθi)ui[si(θi),si(θi);θi,θi]
  • 典型案例:两人议价博弈、第一价格密封排名、贝叶斯定价博弈、不完全信息双寡头竞争模型、不完全信息公共产品提供博弈、一级密封价格拍卖

混合策略均衡的纯化定理:完全信息情况下的混合策略均衡可以解释为不完全信息情况下的纯策略均衡的极限

泽尔腾博弈

将每个不同类型的参与人视作一个代理人

纯策略贝叶斯纳什均衡

静态贝叶斯纳什均衡存在性

贝叶斯博弈中的强优势策略

  • 指标由效用函数改为期望效用函数
  • 强优势策略均衡:每个参与人都选择了强优势策略
  • 典型案例:第二价格拍卖

精炼贝叶斯均衡

混同均衡

分离均衡

信号传递博弈

  • 米尔格罗姆-罗布茨垄断限价模型

更多均衡

  • 剔除劣策略

直观标准:剔除相对于均衡策略的劣策略

  • 序贯均衡
  • 颤抖手均衡
  • KMRW声誉模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值