博弈论学习笔记

Lillian_f

已于 2022-04-03 12:36:21 修改

阅读量2.2k

点赞数

文章标签：经验分享学习

于 2022-03-25 18:17:14 首次发布

本文链接：https://blog.csdn.net/Lillian_f/article/details/123741385

版权

博弈论

1 博弈
2 策略式表述

1 博弈

要素：

参与人：指一个博弈中的决策主体
信息：参与人在博弈过程中能了解和观察到的知识

知识：一个博弈问题所涉及的参与者的特征、行动及相应的效用、收益等
共同知识：所有参与人知道，所有参与人知道所有参与人知道… 理性是共同知识

行动：是各参与人在博弈过程中的备选方案

行动组合：选择的行动集合；
行动顺序：参与人谁先行动，谁后行动。
策略：每个参与人的行动选择方案。指参与人如何对其他参与人的行动作出反应的行动规则，它规定参与人在什么时候选择什么行动。

支付：在一个特定策略组合下，各参与人得到的确定的效用或期望效用

分类：

合作&非合作：协议

合作博弈：研究人们达成合作的条件及如何分配合作得到的收益，即收益分配问题；强调团体理性效率、公正、公平；达成协议并遵守
非合作博弈：研究人们在利益相互影响的局势中如何决策以使自己的收益最大，即策略选择问题；强调个人理性；未达成协议

静态&动态：策略

静态博弈：指参与人同时采取行动，或虽然行动顺序有先后，但后行动者也不知道先行动者采取的行动是什么；策略是一个决策或行动；策略式表述博弈
动态博弈：指双方的行动有先后顺序，并且后行动者在行动前有可能观测到其他先行动者的行动；策略是完整的行动方案；扩展式表述博弈

完全信息&不完全信息

完全信息博弈：指每个参与人都拥有所有其他参与人的特征、策略及支付函数等方面的准确信息；
不完全信息博弈：指至少存在一个参与人对其他参与人的偏好、支付函数、策略等方面的知识是不完全的。

零和&非零和

零和博弈：在所有场合下，所有参与人的支付之和恒为0
不为0的定值——定和博弈

还包括演化博弈、随机博弈、微分博弈、组合博弈、行为博弈

2 策略式表述

2.1 基本概念

要素：

博弈参与人： $N$ ——参与人的集合； $i$ ——参与人， $i\in N$
博弈参与人的策略集： $S_i$ ——参与人的策略集； $s_i$ —— $S_i$ 中的一个元素；
$S=(s_1,s_2,\dots,s_n)$ ——博弈的策略组合：所有参与人的策略放在一起；
$S_{-i}=\{(s_1,\dots,s_{i-1},s_{i+1},\dots,s_n)\}$ ，则所有参与人的策略组合为 $S=(S_i,S_{-i})$
博弈参与人的支付函数： $u_i$ ——参与人 $i$ 的支付函数

囚徒困境：两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确凿，二者都判刑八年。两人支付矩阵如下：

犯人1/犯人2	坦白	抵赖
坦白	（-8，-8）	（0，-10）
抵赖	（-10，0）	（-1，-1）

占优策略：指可以无视他人选择，而给自己带来最大效用的策略

个人正确理性会造成最坏结局，降低集体福利；集体最优会侵害个人利益最大化
囚徒困境对于犯人1来说，无论犯人2选择坦白还是抵赖，最优策略都是坦白；对于犯人2也是一样。所有参与者的占优策略组合构成占优策略均衡：（坦白，坦白）

重复剔除严格劣战略：找出某一参与人的严格劣策略，将其剔除，并不断重复，最终只留下唯一策略组合

2.2 纳什均衡

纳什均衡：对于博弈 $G=(N,S_i,u_i),i\in N$ ，对于任意参与人 $i$ ，若存在一个策略组合 $s^*=(s_i^*,s_{-i}^*)$ ，满足 $s_i^*\in B_i(s_{-i}^*)$ ，则该策略组合 $s^*$ 为纳什均衡。即纳什均衡中的策略集为参与人的最优反应

最优反应：对于博弈 $G=(N,S_i,u_i),i\in N$ ，对于参与人 $i$ ，给定其他参与人策略组合 $s_{-i}$ ， $i$ 关于 $s_{-i}$ 的最优反应集是满足最优反应的效用大于任何其他策略的参与人 $i$ 的策略集，即： $B_i(s_{-i})=\{s_i\in S_i|u_i(s_i,s_{-i})\ge u_i(s_i^’,s_{-i}),\forall s_i^’\in S_i\}$

混合策略纳什均衡：对于博弈 $G,\forall i\in N$ ，参与人 $i$ 的策略 $\sigma_i^*$ 是关于其他参与人均衡策略组合 $\sigma_{-i}^*$ 的最优反应，即 $\sigma^*=(\sigma_i^*,\sigma_{-i}^*),\sigma_i^*\in r_i(\sigma_{-i}^*),\forall i\in N$ ，则策略组合 $\sigma^*$ 为混合策略纳什均衡

对于博弈 $G=\{S_i,u_i,i\in N\}$ ，称策略 $s_i\in S_i$ 为参与人 $i$ 的纯策略
参与人 $i$ 的混合策略是定义在纯策略集上的一个概率分布
记参与人i的混合策略为 $\sigma_i$ ，若 $S_i$ 中的元素个数为 $k_i$ ，则 $i$ 的一个混合策略可表示为 $\sigma_i=(p_i^1,p_i^2,\dots,p_i^{k_i})$

纳什定理：对于博弈 $G$ ，如果参与人数及每个参与人的纯策略个数是有限的，那么至少存在一个混合策略纳什均衡

定理：对于博弈 $G$ ，若 $\sigma^*=(\sigma^*_i,\sigma^*_{-i})$ 是纳什均衡，那么对于任何参与人 $i$ 来说，他的均衡策略 $\sigma^*_i$ 的支撑中的任意一个元素 $s^’_i$ ，也是关于 $\sigma^*_{-i}$ 的最优反应，即 $u_i(s^’_i,\sigma^*_{-i})=u_i(\sigma^*_i,\sigma^*_{-i}),\forall s_i^’\in Supp(\sigma^*_i)$