（九）博弈论

最新推荐文章于 2022-05-22 21:42:41 发布

置顶 equation1998

最新推荐文章于 2022-05-22 21:42:41 发布

阅读量8.6k

点赞数 5

分类专栏：数学数学建模文章标签：数学博弈论数学建模

数学建模同时被 2 个专栏收录

14 篇文章 8 订阅

订阅专栏

数学

7 篇文章 1 订阅

订阅专栏

博弈论

详细内容可以参见 Github 博客

对策论亦称竞赛论或博弈论。是研究具有斗争或竞争性质现象的数学理论和方法。一般认为，它既是现代数学的一个新分支，也是运筹学中的一个重要学科。

在日常生活中，经常看到一些具有相互之间斗争或竞争性质的行为。具有竞争或对抗性质的行为称为对策行为。在这类行为中。参加斗争或竞争的各方各自具有不同的目标和利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。对策论就是研究对策行为中斗争各方是否存在着最合理的行动方案，以及如何找到这个合理的行动方案的数学理论和方法

通常将博弈论分为两个部分：竞争博弈和合作博弈。纳什提出的纳什均衡是竞争博弈的基础，沙里普等人是合作博弈的代表人。

非合作博弈论分类

信息\行动顺序	静态（同时决策）	动态（决策有先后，后者知道前者）
完全信息（彼此信息完全互通）	完全信息静态博弈 ——纳什均衡	完全信息动态博弈 ——子博弈精炼纳什均衡
不完全信息	不完全信息静态博弈——贝叶斯纳什均衡	不完全信息动态博弈——精炼贝叶斯均衡

博弈的数学模型

定义：一个正规博弈由三部分组成： $G = (N, S, C)$ ，其中

$N=(1,2,\cdots,n)$ 表示玩家个数。
$S=S_1 \times S_2 \times \cdots \times S_n$ ，称为局势，为所有人的策略集的笛卡尔积。为简单计，
$S_i=(1,2,\cdots,k_i),\quad i=1,2,\cdots,n$
$C=(c_1,c_2,\cdots,c_n)$ 为玩家的收益向量

当局势出现后，对策的结果也就确定了。也就是说，对任一局势 $\in S$ ，局中人 $i$ 可以得到一个赢得 $c_i$

完全信息静态博弈

零和对策（非合作博弈）

零和对策是一类特殊的对策问题。在这类对策中，只有两名局中人，每个局中人都只有有限个策略可供选择。在任一纯局势下，两个局中人的赢得之和总是等于零，即双方的利益是激烈对抗的

当局中人 $I$ 选定策略 $\alpha_i$ 和局中人 $I I$ 选定策略 $\beta_i$ 后，就形成了一个局势。设两人策略集 $S_1=\{\alpha_1,\alpha_2,\cdots \alpha_m\}$ 和 $S_2=\{\beta_1,\beta_2,\cdots \beta_n\}$ 可见这样的局势共有 $m n$ 个。对任一局势记局中人Ⅰ的赢得值为 $a_{ij}$ ，并称 $A=(a_{ij})$ 为局中人Ⅰ的赢得矩阵（或为局中人Ⅱ的支付矩阵), Ⅱ 的赢得矩阵便是 $- A$

从而零和对策简计为：

$G=\{S_1,S_2;A\}$

只要对方不改变策略，任一局中人都不可能通过变换策略来增大赢得或减少损失，称这样的局势为对策的一个稳定点或稳定解（纳什均衡）

定义：设 $f (x, y)$ 为一个定义在 $\in A$ 及 $\in B$ 上的实值函数，如果存在 $x^*\in A,y^* \in B$ 使得对一切 $\in A$ 和 $\in B$ ，有

$f (x, y^*) ≤ f (x^*, y^*) ≤ f (x^*, y)$

则称 $x^*, y^*)$ 为函数 $f$ 的一个鞍点

若等式

$\max \limits_i \min \limits_j a_{ij}=\min\limits_j \max\limits_ia_{ij}=a_{i^*j^*}$

成立(即 $I$ 的主观最小赢得等于 $I I$ 的主观最大损失)。记 $V_G=a_{i^*j^*}$ ，则称 $G_V$ 为对策 $G$ 的值，称使上式成立的纯局势为对策 $G$ 的鞍点或稳定解。 $\alpha_{i^*}$ 与 $\alpha_{j^*}$ 分别称为局中人Ⅰ与Ⅱ的最优纯策略

极大极小原理：记

$μ=\max \limits_i \min \limits_j a_{ij}\quad ν=- \min\limits_j \max\limits_ia_{ij}$

则必有 $μ + ν \leq 0$

零和对策 $G$ 具有稳定解的充要条件为 $μ + ν = 0$

零和对策的混合策略

具有稳定解的零和问题是一类特别简单的对策问题，它所对应的赢得矩阵存在鞍点，任一局中人都不可能通过自己单方面的努力来改进结果。然而，在实际遇到的零和对策中更典型的是 $μ + ν ̸ = 0$ 的情况。由于赢得矩阵中不存在鞍点，此时在只使用纯策略的范围内，对策问题无解。下面我们引进零和对策的混合策略

区别在于给每一个决策赋予了一个概率 $x=(x_1,\cdots,x_m)^T$ , $y=(y_1,\cdots,y_n)^T$ 则局中人I的期望赢得为 $E(x,y)=x^TAy$

鞍点 $(\overline x,\overline y)$ 的定义变为： $\overline x^TAy=\max \limits_x x^TAy=\min \limits_y \overline xAy$

任意混合策略对策问题必存在鞍点
使用纯策略的对策问题（具有稳定解的对策问题）可以看成使用混合策略的对策问题的特殊情况，相当于以概率1 选取其中某一策略，以概率0 选取其余策略

零和对策的线性规划解法

当 $m > 2$ 且 $n > 2$ 时，通常采用线性规划方法求解零和对策问题

局中人 I 选择混合策略 $(\overline x,\overline y)$ 的目的是为了使得

$\overline x^TA\overline y=\max \limits_x \min \limits_y x^TAy$

对应线性规划问题

$\max \quad u\\ s.t. \left \{ \begin{array}{} \sum \limits_{i=1}^m a_{ij}x_i \ge u ,&j=1,2,\cdots,n\\ \sum \limits_{i=1}^m x_i=1\\ x_i \ge 0,&i=1,2,\cdots,m \end{array} \right.$

得解（即最小中取最大），做变换

$x_i^{'}=\frac{x_i}{u},i=1,2,\cdots,m$

而 I，II 其实互为对偶线性规划，则线性规划可化为，

对 $I$ ：

$\min \quad \sum_{i=1}^m x_i^{'} \\ s.t. \left \{ \begin{array}{} \sum \limits_{i=1}^m a_{ij}x_i^{'} \ge 1,j=1,2,\cdots,n\\ x_i^{'} \ge 0,i=1,2,\cdots,m \end{array} \right.$

对 $I I$ ：

$\min \quad \sum_{i=1}^m y_i^{'} \\ s.t. \left \{ \begin{array}{} \sum \limits_{j=1}^n a_{ij}y_i^{'} \le 1 ,i=1,2,\cdots,m\\ y_j^{'} \ge 0,j=1,2,\cdots,n \end{array} \right.$

案例：

在一场敌对的军事行动中，甲方拥有三种进攻性武器 $A_1,A_2,A_3$ ，可分别用于摧毁乙方工事；而乙方有三种防御性武器 $B_1,B_2,B_3$ 来对付甲方。据平时演习得到的数据，各种武器间对抗时，甲方赢得矩阵如下：

1/3 1/2 -1/3
-2/5 1/5 -1/2
1/2 -3/5 1/3

1/3	1/2	-1/3
-2/5	1/5	-1/2
1/2	-3/5	1/3

编程解决

clear
a=[1/3,1/2,-1/3;-2/5,1/5,-1/2;1/2,-3/5,1/3];b=10;
a=a+b*ones(3); %把赢得矩阵的每个元素变成大于0的数
[x0,u]=linprog(ones(3,1),-a',-ones(3,1),[],[],zeros(3,1));
x=x0/u,u=1/u-b
[y0,v]=linprog(-ones(3,1),a,ones(3,1),[],[],zeros(3,1));
y=y0/(-v),v=1/(-v)-b

二人非常数和对策

所谓常数和对策是指局中人I和局中人II所赢得的值之和为一常数。显然，二人零和对策是二人常数和对策的特例，即常数为零。二人非常数和对策也称为双矩阵对策。也有纯策略对策和混合策略对策两种策略。

纯策略问题

囚徒困境中便是一个典型的二人非常数和对策，每人的赢得矩阵是不同的，因此称为双矩阵问题。 $C^1=(c_{ij}^1)_{m \times n}$ 为局中人 I的赢得矩阵。 $C^2=(c_{ij}^2)_{m \times n}$ 为局中人 II的赢得矩阵。

因此，双矩阵对策记为 $G=\{S_1,S_2,C^1,C^2\}$

定义：设 $G=\{S_1,S_2,C^1,C^2\}$ 是一双矩阵对策，若等式

$c_{i^*j^*}^1=\min \limits_j\max \limits_i c_{ij}^1=c_{i^*j^*}^2=\min\limits_i \max\limits_jc_{ij}^2$

成立，则记 $v_1=c_{i^*j^*}^1$ 并称 $v_1$ 为局中人I 的赢得值。称 $(\alpha_{i^*}\beta_{j^*})$ 为 $G$ 在纯策略下的解（或 $N a s h$ 平衡点）

实际上，定义也同时给出了纯策略问题的求解方法。因此，对于囚徒困境， $((1, 0), (1, 0))$ 是 $N a s h$ 平衡点，这里 $(1, 0)$ 表示以概率1取第一个策略，也就是说，坦白是他们的最佳策略。

混合对策问题

称 $(\overline x, \overline y)$ 为 $G$ 的一个非合作平衡点，每个双矩阵对策至少存在一个非合作平衡点

混合对策问题的求解方法——转换为线性规划

案例：

有甲、乙两支游泳队举行包括三个项目的对抗赛。这两支游泳队各有一名健将级运动员（甲队为李，乙队为王），在三个项目中成绩都很突出，但规则准许他们每人只能参加两项比赛，每队的其他两名运动员可参加全部三项比赛。已知各运动员平时成绩^见176页。假定各运动员在比赛中都发挥正常水平，又比赛第一名得5分，第二名得3分，第三名得1分，问教练员应决定让自己队健将参加哪两项比赛，使本队得分最多？（各队参加比赛名单互相保密，定下来后不准变动）

计算全部策略下各队的得分，Matlab程序如下：

clc,clear
a=[59.7 63.2 57.1 58.6 61.4 64.8
67.2 68.4 63.2 61.5 64.7 66.5
74.1 75.5 70.3 72.6 73.4 76.9];
m=3;n=3;kk=3;T=1000;
sc1=[5:-2:1,zeros(1,3)]; %1-6 名的得分
sc2=repmat(sc1,kk,1);
for i=1:m
for j=1:n
b=a;
b(i,3)=T;b(j,4)=T; %不参加比赛，时间成绩取为充分大
[b,ind]=sort(b,2); %对b 的每一行进行排序
for k=1:m
sc2(k,ind(k,:))=sc1; %计算得分
end
A_sc(i,j)=sum(sum(sc2(:,1:m))); %统计得分
B_sc(i,j)=sum(sum(sc2(:,m+1:end)));
end
end
A_sc,B_sc
fid=fopen('txt2.txt','w');
fprintf(fid,'%f\n',A_sc');
fwrite(fid,'~','char'); %往纯文本文件中写LINGO 数据的分割符
fprintf(fid,'%f\n',B_sc');
fclose(fid);

然后只需用lingo进行一次线性规划

model:
sets:
pa/1..3/:x;
pb/1..3/:y;
link(pa,pb):c1,c2;
endsets
data:
c1=@file(txt2.txt);
c2=@file(txt2.txt);
enddata
v1=@sum(link(i,j):c1(i,j)*x(i)*y(j));
v2=@sum(link(i,j):c2(i,j)*x(i)*y(j));
@for(pa(i):@sum(pb(j):c1(i,j)*y(j))<v1);
@for(pb(j):@sum(pa(i):c2(i,j)*x(i))<v2);
@sum(pa:x)=1;@sum(pb:y)=1;
@free(v1);@free(v2);
end

求得甲队的平均得分为12.5分，乙队的平均得分为14.5分

无限策略博弈分析

之前讨论的策略均为有限集合，这里将其推广至连续情形

若 $n$ 个参与人的博弈，参与人 $i$ 的策略空间是 $A_i $ ， $x_i \in A_i$ 代表一个策略。收益函数 $u_i=u_i(x_1,x_2,\cdots,x_n)$ ，纳什均衡定义为在别人策略给定的情况下，任何一方不能仅仅能通过调节自己的策略提高自己的收益。

对参与人 $i$ 的反应函数 $R_i(x_{-i})$ 满一般定义为其他人策略不变时参与人 $i$ 的最优策略，即

$u_i(R_i(x_{-i}),x_{-i}) \ge u_i(x_i,x_{-i})$

其中 $- i$ 表示非 $i$ 。可见反应函数是别人策略的函数。反应函数的交点是否为纳什均衡要做二阶验证，何塞阵负定

若纳什均衡存在，则

$x_i^*=R_i(x_{-i}^*),i=1,2,\cdots,n \\ or\quad {\left. {\frac{{\partial {u_i}}}{{\partial {x_i}}}} \right|_{x = {x^*}}} = 0,i = 1,2, \cdots ,n$

故而只需联系方程组便可。

完全信息动态博弈

田忌赛马

其余两种博弈静待模型

合作博弈

Shapley 值方法

在经济或社会活动中若干实体相互合作结成联盟或集团，常能比他们单独行动获得更多的经济或社会利益。

$n$ 人合作对策和 shapley 值

全体 $n$ 个人的合作带来最大的利益，shapley 值是分配这个最大利益的一种方案。

给定一个有限的局中人集合 $I=\{1,2,\cdots,n\}$ ，正式的合作博弈定义是以特征函数 $[I, v]$ 的形式给出的，简称特征型或者联盟型。其中特征函数是 $v$ 是从 $2^I=\{s \mid s \subset I \}$ 到实数集 $\boldsymbol{R}^n$ 的映射，并且满足

$v(\phi)=0 \\ v(s_1 \cup s_2) \ge v(s_1)+v(s_2),\quad \forall s_1 \cap s_2= \phi$

即合作只会使收益更大

记 $x=[x_1,x_2,\cdots,x_n]$ 为成员 $i$ 应该从最大收益 $v(I) $ 中分得的收益，称为合作对策的分配。用 shapley 方法确定分配公式为 $x_i=\phi_i(v)$

$\ i ) ] , i = 1 , 2 , ⋯   , n w ( ∣ s ∣ ) = ( n − ∣ s ∣ ) ! ( ∣ s ∣ − 1 ) ! n ! \phi_i(v)=\sum_{s \in S_i}w( \left| s \right|) [v(s)-v(s \verb|\|i)] ,\quad i=1,2,\cdots,n \\ w(|s|)=\frac{(n-|s|)!(|s|-1)!}{n!}$

其中 $S_i$ 是包含 $i$ 的一切子集（合作模式）所构成的集合。

按照贡献取得报酬

shapley 缺点与解决方法

然而通常情况不可能知道所有的 $v (s)$ 。需尝试其他方法。如协商解（偏袒强者）、Raiffa 解在一定程度上保护弱者。具体参加《复杂网络算法与应用》

演化博弈

演化博弈最早由生物学家提出来的，它讨论在重复博弈当中如何做出决策以及由此引起的结果。他是以有限理性（不完全理性）为基础假设的

传统的完全理性与完全信息较难实现

基本分类

基本模型
- 单群体模型
- 多群体模型
确定性动态模型和随机性动态模型

演化稳定策略

Evolutionary Stable Strategy(SSE) 源于生物进化论中的自然选择原理。即指，如果群体中的所有成员都采取这种策略，那么在自然选择中将没有突变策略侵犯这个群体。

就是在重复博弈中，仅仅具备有限信息的个体上根据其利用不断地进行策略调整，最终达到一种平衡，这样的博弈称为演化博弈

其重要性质：

演化稳定策略组成的策略是严格的、对称的、完美的均衡
演化稳定的策略是静态的，并不探讨均衡是如何得到的，某些情况可以从赢得矩阵中直接得到
演化稳定策略一定是纳什均衡，反之不一定

可见适合于有多个纳什均衡的情况

模仿者动态模型

单群体确定性模仿者动态模型

考察对象只有一个群体，这些个体都有相同的纯策略集，个体与虚拟的博弈者进行对称博弈。

对称博弈的结果仅与己方的策略有关

假定群体中每一个个体在任何时候只选择一个纯策略。 $s=(s_1,s_2,\cdots,s_n)$ 表示各个个体可以选择的纯策略集， $n_i(t)$ 表示时刻 $t$ 选择纯策略 $s_i$ 的个体数。 $\boldsymbol{x}=[x_1,x_2,\cdots,x_n]$ 表示时刻 $t$ 的状态，其中 $x_i$ 表示在该时刻选择纯策略 $s_i$ 的人数在群体中站的比例。即 $x_i=n_i(t)/n$ ， $u(s_i,x)$ 表示群体中个体进行随机匿名博弈时，群体中选择纯策略 $s_i$ 的个体的期望赢得。