博弈论1（正则型博弈）

最新推荐文章于 2025-03-13 21:40:05 发布

^一^

最新推荐文章于 2025-03-13 21:40:05 发布

阅读量3k

点赞数 12

分类专栏：智能计算数学基础文章标签：博弈论

本文链接：https://blog.csdn.net/weixin_43473397/article/details/108181986

版权

智能计算数学基础专栏收录该内容

2 篇文章

订阅专栏

博弈论和信息熵是我觉得最神奇的数学！
我的上课的学习笔记

文章目录

前言

什么是博弈论？
在这里插入图片描述
博弈即Game

2-player game
n-player game

计算机科学中的博弈问题
在这里插入图片描述
博弈场景
博弈论是相对对独立的、自利的个体之间相互作用的数学研究，所以这种由统一编程协作工作的应用场景不是博弈。

博弈模型分类
在这里插入图片描述
一些例子

猜拳游戏（正则型博弈）

纯竞争关系，没有共赢。
囚徒困境（正则型博弈）
AlphaGo（扩展型博弈）

因为下棋是一步一步来的，无法再用矩阵进行描述，因此采用博弈树的方法进行描述。解决博弈树问题的常规策略是逆向归纳法，但是在这个问题中逆向归纳法的搜索空间达到 $250^{150}$ ，因此不能使用这种方法。AlphaGo使用的是卷积神经网络的方法。
多智能体强化学习（其他类型）
联邦学习（其他类型）

智能体决策
对每个决策可以描述成一个智能体。
在这里插入图片描述

决策在环境中采取一个动作，这个动作被解释为一个奖励和一个状态转换，然后反馈给下一个动作。
决策的目标是寻找一个政策和一个状态转移模型，从而使期望累积报酬最大化

单智能体→多智能体
研究理性决策者之间的竞争或合作，考虑他们的偏好、知识、战略行动，以及这些因素如何影响结果，可以分为两类：

非合作博弈，个体博弈
合作博弈，玩家联盟之间的竞争

本门课更多的考虑非合作博弈。

博弈表示方法

一个人需要知道一些关于这个游戏的东西
- 玩家是谁
- 玩家可以采取哪些行动
- 每个玩家对每个结果的重视程度
- 每个玩家都知道什么
根据以上的信息有两种博弈的表示
- 正则型（或策略型）博弈，上述信息可以用矩阵表示
- 扩展型博弈，利用博弈树和信息集对上述信息进行显式描述

正则型博弈

定义
囚徒困境
特殊的正则型博弈

纯合作博弈
纯竞争博弈

博弈纯策略与混合策略

帕雷托最优

当只有一个决策者时可以选择使决策者收益最大的决策，而当存在多个决策者时，彼此之间的收益会有冲突，彼此之间也不能比较，但有些情况还是可以判断优劣的，在这种情况下，进行优化就是帕雷托最优，即不改变其他决策者的利益的情况下，能提高某些决策者的利益。
在这里插入图片描述
总的来说，帕雷托最优的条件是只要决策改变，会损害任意一个决策者的情况，那么当前状态就是帕雷托最优。
以囚徒困境问题举例，绿色圈圈的状态就是帕雷托最优，该问题中共有三个帕雷托最优。

帕雷托最优的思想：帕雷托最优虽然是最优但只是一个最低标准，满足帕雷托最优的不一定是最优决策，不满足帕雷托最优的一定不理想。

纳什均衡

系统达到稳定的状态。
在这里插入图片描述

纳什均衡更符合个人选择，尽管最后的结果并不是帕雷托最优。
举一些例子

囚徒困境
猎鹿赛局
性别之战
男女看电影，如果有分歧则都没有收益，不同的选择对彼此的收益不同。
这个例子中有两个纳什均衡，一个是纯策略纳什均衡，一个是混合策略纳什均衡。
猜拳游戏
不存在纯策略的纳什均衡。

但存在混合策略纳什均衡，每个行动的概率为1/3时达到混合策略纳什均衡。即纯随机的出，才能势均力敌。
赌便士游戏（零和博弈）

同样没有纯纳什均衡，只有混合策略纳什均衡。

纳什均衡存在定理
在这里插入图片描述
如何理解混合策略纳什均衡？

一个博弈的混合策略可以被看作是其他人对博弈执行每一个纯策略的可能性的评估
如果游戏被反复玩了很多次，那么纯策略的概率就是它在极限内玩的时间的频率
如果决策是从一个大的群体中随机选择的，其中每个决策都扮演一个纯策略，那么纯策略的概率代表了执行该策略的频率。
（这里翻译不太准确，还是看英文原文比较好）总的来说我认为混合决策就是执行纯策略的概率的集合。