博弈论 第五章 重复博弈

无限重复博弈的效用(utility)

使用平均收益:
在这里插入图片描述

有时我们认为不同时间获得的收益重要性不同,比如一开始的收益权重更大(因为越早获得,可以收利息:
在这里插入图片描述
注意 β \beta β小于1,所以指数函数递减。

如果这个游戏每次开始前有 β \beta β的概率继续, 1 − β 1-\beta 1β的概率终止,那么计算公式还是上面这个。

随机博弈

一个博弈的结果,可能会导致另一个博弈的出现。
在这里插入图片描述
在这里插入图片描述
这个定义里假设了所有博弈里行动集合相同,也可以定义成不同。
这个定义也生成了一个马尔可夫决策过程(MDP)。(MDP就是单人随机博弈)

因此随机博弈包含了马尔可夫决策和重复博弈。可以延续重复博弈中各种回报的定义(上面写了),可以从马尔可夫中延续稳态,马尔可夫决策可达性等概念(不做介绍)

学习

博弈论中的学习和AI中的学习不同,AI中的学习是让单个体在位置环境中,寻找如何让目标优化。博弈论中,你学习的同时也会影响其他人,有学习也有教学。
比如两人飙车相撞,如果1是学习者,非常了解2,能做出最优回应,但是2是鲁莽者,从不让路,从不学习。多次博弈的结果是1学到了应该避让,2擅长教学。

虚构博弈(fictious play)

最初是用来计算纳什均衡的方法。

每个人一开始对对方行为有一个建模,然后根据对方的行动来更新这个模型。

具体方法如下
一开始玩家对对方行为有一个初始概率估计。
轮到自己时:
计算对方累计出现各种行动的频率
假设对方会出频率最高的行动,我要选择一个最佳回应。

这里每个人假设了对方是混合策略,但其实每个人都是纯策略。

以猜硬币的例子来模拟。一开始1觉得2出T的频次是2,所以猜测对方会出T,1想让双方相同,所以1会出T。2觉得1出H频次高(2),猜测对方会出H,所以自己出T。
博弈一轮后更新各自的模型。
在这里插入图片描述
最终,统计双方出正反的概率都是0.5,把这个称为经验频率(empirical frequency)。

理论:
在虚构博弈中,如果每人的策略的经验分布收敛,那么它会收敛到纳什均衡。

下面的博弈都会在虚构博弈中收敛(虚构收敛的充分条件):
零和博弈;可解的迭代

无悔学习 (no regret learning)

这种方法不要建模。

Regret(后悔): 玩家在t时刻没有采取行动s带来的后悔定义为: R t ( s ) = α t − α t ( s ) R^t(s)=\alpha^t-\alpha^t(s) Rt(s)=αtαt(s). 即实际获得的收益减去如果他采取行动s能获得的收益。越小说明越后悔。

无悔学习:
在这里插入图片描述
对于所有纯策略s,后悔的下限总是小于等于0.

后悔匹配规则就是一种无悔学习,其具体规则:
个体每时会将 行动s的后悔值 对应为 下一时刻选择这种行动的概率
在这里插入图片描述
在有限博弈中使用这种规则会收敛到协同均衡(correlated equilibrium)

无限重复博弈的均衡

无限重复博弈中的纯策略是什么?

所有历史信息对应的行动是什么。纯策略空间是从所有历史信息到行动的映射。因此无限重复博弈中有无数种策略(比如你背叛我n次我就不信任你,n可以是任何数,因此有无数种策略)

囚徒困境中有两种著名的策略:tit fot tat(我选合作,除非你上次选了不合作), trigger(一旦你有一次不合作,我就永远不合作).

以往的方法是写出规范形式(表格),但是重复博弈中有无数纯策略,因此得不到表格。以前可能有有限的纯策略纳什均衡,无限的混合策略纳什均衡。但是无限重复博弈中可能有无限的纯策略纳什均衡

下面用平均回报(而不是discount reward)来计算个体的回报,先定义几个概念:
在这里插入图片描述
解释:
minmax value:其他人像最小化我的收益时,我选择合适的策略让我的收益最大,此时的收益就是~
enforceable:对于任何人i,i获得的收益不少于其他人想害他时他让自己获得的最大收益。
feasible:收益向量r能够表示成各个收益(即表中的cell)的加权和。例如

\AB
C(2,0)(0.0)
D(0.0)(0.2)

此时,r=(1,1)是可行的,可以给四个收益加权[0.5 0 0 0.5],但是r=(2,2)是不可行的,因为此时的找不到和为1的加权向量。

理论(纳什均衡在哪):
在这里插入图片描述
1、 无限重复博弈中的纳什均衡 对应的r是 强制的。
2、 如果r强制且可行,那么r是 无限重复博弈中的纳什均衡。
均衡一定强制,强制且可行一定均衡。强制不一定均衡,因此可能不可行,因为可行的要求是权重为有理数。

定理证明我不看了。

Discounted repeated games

前面说过了,再定义下
在这里插入图片描述
在这里插入图片描述
a 1 a^1 a1表示t=1时刻,所有个体的行动组合。 h t h^t ht是一种历史,表示历史t时刻,所有个体做出的行动集合。 H t H^t Ht h t h^t ht的集合,表示历史的所有可能。H是所有t下的 H t H^t Ht的并集。
策略是所有历史到混合行动的映射。即无论历史是什么,通过 s i s_i si,我能得到我的混合行动


一个博弈的例子:石油的价格一开始很低,因为产量很足,于是各大厂家签订了协议,减少开采。此时都减少开采,可以让价格上涨,如果有人不减少,则他一个人会收获很多,其他人很少。这个博弈类似于囚徒困境 结果是石油的价格慢慢上涨,1986-2002由于战争下降了一些,接着又涨回来了。
重复博弈需要:容易观察到其他玩家的行为,并能很快惩罚他们的错误行为。玩家有耐心,眼光长远。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值