博弈论第五章重复博弈

最新推荐文章于 2024-08-01 17:19:34 发布

longzu0

最新推荐文章于 2024-08-01 17:19:34 发布

阅读量3.8k

点赞数 1

分类专栏：博弈论文章标签：博弈论

本文链接：https://blog.csdn.net/longzu233/article/details/119024725

版权

博弈论专栏收录该内容

5 篇文章 3 订阅

订阅专栏

无限重复博弈的效用（utility）

使用平均收益：
在这里插入图片描述

有时我们认为不同时间获得的收益重要性不同，比如一开始的收益权重更大（因为越早获得，可以收利息：
在这里插入图片描述
注意 $\beta$ 小于1，所以指数函数递减。

如果这个游戏每次开始前有 $\beta$ 的概率继续， $1-\beta$ 的概率终止，那么计算公式还是上面这个。

随机博弈

一个博弈的结果，可能会导致另一个博弈的出现。
在这里插入图片描述

这个定义里假设了所有博弈里行动集合相同，也可以定义成不同。
这个定义也生成了一个马尔可夫决策过程（MDP）。（MDP就是单人随机博弈）

因此随机博弈包含了马尔可夫决策和重复博弈。可以延续重复博弈中各种回报的定义（上面写了），可以从马尔可夫中延续稳态，马尔可夫决策可达性等概念（不做介绍）

学习

博弈论中的学习和AI中的学习不同，AI中的学习是让单个体在位置环境中，寻找如何让目标优化。博弈论中，你学习的同时也会影响其他人，有学习也有教学。
比如两人飙车相撞，如果1是学习者，非常了解2，能做出最优回应，但是2是鲁莽者，从不让路，从不学习。多次博弈的结果是1学到了应该避让，2擅长教学。

虚构博弈（fictious play)

最初是用来计算纳什均衡的方法。

每个人一开始对对方行为有一个建模，然后根据对方的行动来更新这个模型。

具体方法如下：
一开始玩家对对方行为有一个初始概率估计。
轮到自己时：
计算对方累计出现各种行动的频率
假设对方会出频率最高的行动，我要选择一个最佳回应。

这里每个人假设了对方是混合策略，但其实每个人都是纯策略。

以猜硬币的例子来模拟。一开始1觉得2出T的频次是2，所以猜测对方会出T，1想让双方相同，所以1会出T。2觉得1出H频次高（2），猜测对方会出H，所以自己出T。
博弈一轮后更新各自的模型。
在这里插入图片描述
最终，统计双方出正反的概率都是0.5，把这个称为经验频率(empirical frequency)。

理论：
在虚构博弈中，如果每人的策略的经验分布收敛，那么它会收敛到纳什均衡。

下面的博弈都会在虚构博弈中收敛（虚构收敛的充分条件）：
零和博弈；可解的迭代

无悔学习（no regret learning)

这种方法不要建模。

Regret(后悔): 玩家在t时刻没有采取行动s带来的后悔定义为： $R^t(s)=\alpha^t-\alpha^t(s)$ . 即实际获得的收益减去如果他采取行动s能获得的收益。越小说明越后悔。

无悔学习：
在这里插入图片描述
对于所有纯策略s，后悔的下限总是小于等于0.

后悔匹配规则就是一种无悔学习，其具体规则：
个体每时会将 行动s的后悔值 对应为下一时刻选择这种行动的概率。
在这里插入图片描述
在有限博弈中使用这种规则会收敛到协同均衡(correlated equilibrium)

无限重复博弈的均衡

无限重复博弈中的纯策略是什么？

所有历史信息对应的行动是什么。纯策略空间是从所有历史信息到行动的映射。因此无限重复博弈中有无数种策略（比如你背叛我n次我就不信任你，n可以是任何数，因此有无数种策略）

囚徒困境中有两种著名的策略：tit fot tat（我选合作，除非你上次选了不合作）, trigger（一旦你有一次不合作，我就永远不合作）.

以往的方法是写出规范形式（表格），但是重复博弈中有无数纯策略，因此得不到表格。以前可能有有限的纯策略纳什均衡，无限的混合策略纳什均衡。但是无限重复博弈中可能有无限的纯策略纳什均衡

下面用平均回报（而不是discount reward）来计算个体的回报，先定义几个概念：
在这里插入图片描述
解释：
minmax value：其他人像最小化我的收益时，我选择合适的策略让我的收益最大，此时的收益就是~
enforceable：对于任何人i，i获得的收益不少于其他人想害他时他让自己获得的最大收益。
feasible：收益向量r能够表示成各个收益（即表中的cell）的加权和。例如

\	A	B
C	(2,0)	(0.0)
D	(0.0)	(0.2)

此时，r=(1,1)是可行的，可以给四个收益加权[0.5 0 0 0.5]，但是r=(2,2)是不可行的，因为此时的找不到和为1的加权向量。

理论（纳什均衡在哪）：
在这里插入图片描述
1、无限重复博弈中的纳什均衡对应的r是强制的。
2、如果r强制且可行，那么r是无限重复博弈中的纳什均衡。
均衡一定强制，强制且可行一定均衡。强制不一定均衡，因此可能不可行，因为可行的要求是权重为有理数。

定理证明我不看了。

Discounted repeated games

前面说过了，再定义下
在这里插入图片描述

$a^1$ 表示t=1时刻，所有个体的行动组合。 $h^t$ 是一种历史，表示历史t时刻，所有个体做出的行动集合。 $H^t$ 是 $h^t$ 的集合，表示历史的所有可能。H是所有t下的 $H^t$ 的并集。
策略是所有历史到混合行动的映射。即无论历史是什么，通过 $s_i$ ，我能得到我的混合行动

一个博弈的例子：石油的价格一开始很低，因为产量很足，于是各大厂家签订了协议，减少开采。此时都减少开采，可以让价格上涨，如果有人不减少，则他一个人会收获很多，其他人很少。这个博弈类似于囚徒困境结果是石油的价格慢慢上涨，1986-2002由于战争下降了一些，接着又涨回来了。
重复博弈需要：容易观察到其他玩家的行为，并能很快惩罚他们的错误行为。玩家有耐心，眼光长远。