国赛培训——博弈论(决策论)

对策问题

对策问题的特征

参与者为利益相互冲突的各方,其结局不取决于其中任意一方的努力而是各方所采取策略的综合结果

对策的基本要素

(1)局中人:在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者,称为局中人。通常用 I 表示局中人的集合.如果有n个局中人,则 I = {1,2,…,n}。
(2)策略集:供局中人选择的一个实际可行的完整的行动方案称为一个策略。参加对策的每一局中人i ,i ∈ \in I ,都有自己的策略集 S i S_i Si
(3)支付函数:局中人所选定的策略形成的策略组称为一个局势 S i S_i Si,全体局势的集合S可用各局中人策略集的笛卡尔积表示

零和博弈(矩阵对策)问题

零和博弈:只有两名局中人,每个局中人只有有限个策略可供选择。在任一纯局势下,两个局中人赢得之和等于0,即双方的利益是激烈对抗的(不可能同时获利)。

策略集

① 局中人Ⅰ、Ⅱ的策略集
S 1 = ( α 1 , α 2 , … , α n ) , S 2 = ( β 1 , β 2 , … , β m ) S_1=(\alpha_1,\alpha_2,\dots,\alpha_n),S_2=(\beta_1,\beta_2,\dots,\beta_m) S1=(α1,α2,,αn),S2=(β1,β2,,βm)

赢得矩阵

② 局中人Ⅰ的赢得矩阵(Ⅱ的支付矩阵)
共有mn个局势,对于任意局势 ( α i , β j ) (\alpha_i,\beta_j) (αi,βj),记局中人Ⅰ的赢得值为 a i j a_{ij} aij,Ⅰ的赢得矩阵为(其中Ⅰ有m个方案,Ⅱ有n个方案):
A = [ a 11 , a 12 , … , a 1 n a 21 , a 22 , … , a 2 n ⋮ , ⋮ , … , ⋮ a m 1 , a m 2 , … , a m n ] A=\begin{bmatrix} a_{11},&a_{12},&\dots,&a_{1n} \\ a_{21},&a_{22},&\dots,&a_{2n}\\ \vdots,&\vdots,&\dots,&\vdots \\ a_{m1},&a_{m2},&\dots,&a_{mn} \end{bmatrix} A=a11,a21,,am1,a12,a22,,am2,,,,,a1na2namn
局中人Ⅱ的赢得矩阵就是-A

当局中人Ⅰ、Ⅱ和策略集 S 1 , s 2 S_1,s_2 S1,s2及局中人Ⅰ的赢得矩阵A确定后,一个零和对策就给定了,零和对策又可称为矩阵对策并可简记成 G = ( S 1 , S 2 , A ) G=(S_1,S_2,A) G=(S1,S2,A)

稳定解(纯策略)

为了稳妥起见,双方都应考虑到对方有使自己损失最大的动机,在最坏的可能中争取最好的结果(最坏的情况中的最好结果)
(1)定义1:设 G = S 1 , S 2 , A G={S_1,S_2,A} G=S1,S2,A为矩阵的对策,其中 S 1 = ( α 1 , α 2 , … , α n ) , S 2 = ( β 1 , β 2 , … , β m ) S_1=(\alpha_1,\alpha_2,\dots,\alpha_n),S_2=(\beta_1,\beta_2,\dots,\beta_m) S1=(α1,α2,,αn),S2=(β1,β2,,βm) A = ( a i j ) m n A=(a_{ij})_{mn} A=(aij)mn。若等式: m a x i m i n j a i j = m i n j m a x i a i j = a i ∗ j ∗ max_imin_ja_{ij}=min_jmax_ia_{ij}=a_{i^*j^*} maximinjaij=minjmaxiaij=aij成立(每行最小值的最大值=每列最大值的最小值),记 V G = a i ∗ j ∗ V_G=a_{i^*j^*} VG=aij为对策G的值,称使上式成立的纯局势 ( α i ∗ , β j ∗ ) (\alpha_i^*,\beta_j^*) (αi,βj)为对策G的鞍点, α i ∗ , β j ∗ \alpha_i^*,\beta_j^* αi,βj分别称为局中人Ⅰ、Ⅱ的最优纯策略

(2)零和博弈G具有稳定解的充要条件: u + v = 0 u+v=0 u+v=0

(3)稳定解之间的性质
① 无差别性:若 ( α i 1 , β j 1 ) , ( α i 2 , β j 2 ) (\alpha_{i_1},\beta_{j_1}),( \alpha_{i_2},\beta_{j_2}) (αi1,βj1),(αi2,βj2)是对策G的两个解,则必有 a i 1 j 1 = a i 2 j 2 a_{i_1j_1}=a_{i_2j_2} ai1j1=ai2j2
② 可交换性:若 ( α i 1 , β j 1 ) , ( α i 2 , β j 2 ) (\alpha_{i_1},\beta_{j_1}),( \alpha_{i_2},\beta_{j_2}) (αi1,βj1),(αi2,βj2)是对策G的两个解,则若 ( α i 1 , β j 2 ) , ( α i 2 , β j 1 ) (\alpha_{i_1},\beta_{j_2}),( \alpha_{i_2},\beta_{j_1}) (αi1,βj2),(αi2,βj1)也是对策G的两个解

具有稳定解的零和博弈问题,任意局中人都不可能通过自己单方面的努力改进结果。若不满足稳定解的充要条件,对策问题误解,则应采取零和博弈的混合策略。

混合策略

设局中人Ⅰ用概率 x i x_i xi选中策略 α i \alpha_i αi,局中人Ⅱ用概率 y j y_j yj选用策略 β j \beta_j βj,记
S 1 ∗ = { ( x 1 , … , x m ) T ∣ x i ≥ 0 , i = 1 , … , m , ∑ i = 1 m x i = 1 } S_1^*=\{(x_1,\dots,x_m)^T \mid x_i \geq0,i=1,\dots,m,\sum_{i=1}^{m}x_i=1\} S1={(x1,,xm)Txi0,i=1,,m,i=1mxi=1}
S 2 ∗ = { ( y 1 , … , y n ) T ∣ y j ≥ 0 , j = 1 , … , n , ∑ j = 1 m y j = 1 } S_2^*=\{(y_1,\dots,y_n)^T \mid y_j \geq0,j=1,\dots,n,\sum_{j=1}^{m}y_j=1\} S2={(y1,,yn)Tyj0,j=1,,n,j=1myj=1}
为局中人Ⅰ和Ⅱ的混合策略

(1) ( x ^ , y ^ ) (\hat{x},\hat{y}) (x^,y^) G = ( S 1 ∗ , S 2 ∗ , A ) G=(S_1^*,S_2^*,A) G=(S1,S2,A)的解的充要条件为:
x ^ T A y ^ = m a x i m i n j x T A y = m i n j m a x i a i j x T A y \hat{x}^TA\hat{y}=max_imin_j x^TAy=min_jmax_ia_{ij}x^TAy x^TAy^=maximinjxTAy=minjmaxiaijxTAy(Ⅰ最小的最大值,Ⅱ最大的最小值)

例题

在这里插入图片描述
在这里插入图片描述

三个对策解集性质

定理5:设两个零和对策
G 1 = ( S 1 , S 2 , A ) , G 2 = ( S 1 , S 2 , A + L ) G1=(S_1,S_2,A),G2=(S_1,S_2,A+L) G1=(S1,S2,A),G2=(S1,S2,A+L),L为任一常数则
(1) V G 2 = V G 1 + L V_{G2}=V_{G1}+L VG2=VG1+L
(2) T ( G 1 ) = T ( G 2 ) T(G_1)=T(G_2) T(G1)=T(G2)

定理6:设两个零和对策
G 1 = ( S 1 , S 2 , A ) , G 2 = ( S 1 , S 2 , α A ) G1=(S_1,S_2,A),G2=(S_1,S_2,\alpha A) G1=(S1,S2,A),G2=(S1,S2,αA),L为任一常数则
(1) V G 2 = α V G 1 V_{G2}=\alpha V_{G1} VG2=αVG1
(2) T ( G 1 ) = T ( G 2 ) T(G_1)=T(G_2) T(G1)=T(G2)

定理6:设两个零和对策
$G1=(S_1,S_2,A),且 A = − A T A= -A^T A=AT
(1) V G = 0 V_G=0 VG=0
(2) T ( G 1 ) = T ( G ) T(G_1)=T(G) T(G1)=T(G)

零和博弈的线性规划解法

当m>2,n>2时,常采用线性规划方法求解零和对策问题:
① 设u>0,作变换 (最小值中的最大值)
x i ′ = x i u , i = 1 , 2 , … , m x_i'=\frac{x_i}{u},i=1,2,\dots,m xi=uxi,i=1,2,,m
则线性规划问题可化为:
m i n ∑ i = 1 m x i ′ = 1 min \sum_{i=1}^{m}x_i'=1 mini=1mxi=1
s . t . { ∑ i = 1 m a i j x i ≥ 1 x i ′ ≥ 0 s.t. \begin{cases} \sum_{i=1}^{m}a_{ij}x_i \geq 1 \\ x_i' \geq 0 \end{cases} s.t.{i=1maijxi1xi0

① 设v>0,作变换 (最大值中的最小值)
y j ′ = y j v , j = 1 , 2 , … , n y_j'=\frac{y_j}{v},j=1,2,\dots,n yj=vyj,j=1,2,,n
则线性规划问题可化为:
m a x ∑ j = 1 n y j ′ = 1 max \sum_{j=1}^{n}y_j'=1 maxj=1nyj=1
s . t . { ∑ i = 1 m a i j x i ≤ 1 y j ′ ≥ 0 s.t. \begin{cases} \sum_{i=1}^{m}a_{ij}x_i \leq 1 \\ y_j' \geq 0 \end{cases} s.t.{i=1maijxi1yj0

(推导详见书P160)

Reference

司守奎-《数学建模算法与程序》-2010

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冠long馨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值