博弈论初探

最新推荐文章于 2023-12-24 22:33:22 发布

qq_43133135

最新推荐文章于 2023-12-24 22:33:22 发布

阅读量1.5k

点赞数 1

分类专栏：博弈论

本文链接：https://blog.csdn.net/qq_43133135/article/details/108551339

版权

博弈论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

博弈论基本概念

博弈：是指在一定的游戏规则约束下，基于直接相互作用的环境条件，各参与者依据所掌握的信息，选择各自的策略，以实现最大利益化的过程

博弈论：研究个体如何做策略选择以实现利益最大化、以及其不同个体之间决策实现各自利益最大化的理论

博弈的分类：
1、合作博弈和非合作博弈。

合作博弈：指参与者能够达成一种具有约束力的协议，在协议范围内选择有利于双方的策略
非合作博弈：指参与者无法达成这样一种协议

2、静态博弈和动态博弈。

静态博弈：指在博弈中，参与者同时选择，或虽非同时选择，但在逻辑上是同时的。
动态博弈：指在博弈中，参与者的行动有先后顺序，且后行动者能够观察到先行动者的行动。

3、完全信息博弈和不完全信息博弈。

完全信息博弈：指在博弈中，每个参与者对其他参与者的类型、策略空间及损益函数都有准确的信息
不完全信息博弈：总有一些信息不是所有参与者都知道的

4、和博弈和非零和博弈

零和博弈：博弈前的损益总和与博弈后的损益总和相等，即损+益=0
非零和博弈：指博弈后的损益大于（小于）博弈前的损益总和（正和或负和）不玩负和游戏，少玩零和游戏，多玩正和游戏

两大基本假设

理性人假设与共同知识假设：
1、假设人的认知是理性的：
人是自我利益的判断者。

比如你现在面前有三个不同类型美女：A(可爱)，B(性感)，C(妩媚)
$\qquad$
你知道自己最喜欢哪种类型的。但是上面可能都没有你最喜欢的，可能你最喜欢D(妖娆)的。
$\qquad$
具有完备性的偏好应该是：
A(可爱)，B(性感)，C(妩媚)，D(妖娆)
$\qquad$
如果A和B，你的偏爱程度是：A > B。
如果B和C，你的偏爱程度是：B > C
所以我可以推断，在A和C中，你的偏好是：A>C
$\qquad$
所以偏好必须具有传递性，完整的偏好应该是：
A>B , B>C 必然能够推断出 A>C
$\qquad$
虽然假设人是理性的，但是事实上人是有限理性的，是会受到外界影响作出非理性的事情的，很多时候靠感觉做选择

2、假设人的行为是理性的：
人是自我利益的追求者。

总的来说就是两利相权取其重，两害相权取其轻
$\qquad$
但影响你的行为有很多因素，比如参照物：
电子版：100元纸质版：200元（电子+纸质）:210元
$\qquad$
顾客更容易选择（电子+纸质）。（顾客不需要便宜，需要的是占到便宜——拥有较高的消费者剩余）。
例如一些商品捆绑在一起销售，价格低于两件商品之和，又高于每一件单品，这时候，大多数的消费者会选择捆绑在一起的商品。
PS：所以交流时给对方出选择题，不做判断题，参考系需要掌握在自己手里。

3、共同知识假设

我们两个人之间，你知道A，我也知道A，这A还不是共同知识，A想要成为共同知识还得你知道我知道A，我也知道你知道A，我还要知道你知道我知道A，你也还要知道我知道你知道A…
$\qquad$
所以达成共识是一件非常困难的事情
在信息不对称的情况下，有时候博弈的结果不取决于大家是怎么想的，而取决于大家认为大家是怎么想的。

纳什均衡

纳什均衡发生在非合作博弈过程中，可以分为两类：纯策略纳什平衡和混合策略纳什平衡。

纯策略就是指在一种情况下做出永恒不变的选择，比如你如果出石头，我必然出布，你如果出布，我必然出剪刀。
$\qquad$
混合策略就是是纯策略上的一个概率分布，也就是随机选择策略，但是选择每一种策略的概率都是确定的。这种基于确定概率选择策略的博弈称为混合策略博弈
$\qquad$
严格来说，每个纯策略都是一个“退化”的混合策略，某一特定纯战略的机率为1，其他的则为0

1、纯策略纳什平衡：
最通常的案例就是囚徒困境了，囚徒只有两个选择：坦白，抗拒

两个囚徒A和B，分别被关在两个屋，消息不共享，如果其中一个人坦白了，另一个抗拒，那坦白的直接释放，抗拒的罚10年监禁；如果两个人同时坦白了，都罚5年监禁；如果都抗拒则监禁1年可以被释放。
$\qquad$
A想：如果我坦白，B不坦白，我直接被释放，B坦白，我只要被关5年。但如果我抗拒，B坦白，我就得被关10年，B抗拒我只要被关一年。但是B会不会选择坦白我不知道，但是我抗拒的话，最好的情况是被关1年，最坏情况被关10年；但是我坦白的话，最好情况直接释放，最坏情况被关5年。所以综合来看，我还是坦白比较好。
$\qquad$
而B也和A想的一样，所以最终A和B都坦白，所以策略（坦白，坦白）便是他们的纳什均衡点。

2、混合策略纳什平衡：
最通常的案例就是硬币游戏了，双方只有两个选择：正面，反面

两个人A和B，如果都出正面，A给B 3元；都出反面，A给B 1元；一正一反，B给A 2元。
$\qquad$
如果A一直出正面，B一直出反面，就变成了纯策略问题了，A就会想：如果我出正面，最坏情况是B出正面，我要给他3元，最好情况是我得到2元；但如果我出反面，我最坏情况是给他1元，最好情况也是得到2元，所以我应该出反面。B会想，如果我出正面，最好情况得3元，最坏情况给他2元；但如果我出反面，最好情况是得1元，最坏情况给他2元，所以我应该出正面。所以A，B纳什均衡点就变成了（反面，正面）
$\qquad$
但是放到混合策略上来说，就是A以一定概率出正面和反面，B也是如此。如果A出正面的概率为m，那么出反面的概率就是1-m；B如果出正面的概率是n，那么出反面的概率就是1-n。
$\qquad$
这时候A也会想：我应该以多少概率n出正面，收益会最大：
期望收益E=-3m·n + 2m·(1-n)+ 2(1-m)·n + -1(1-m)·(1-n)
优化一下：E=(3-8m)·n +3m-1,是关于n的一次函数，斜率为(3-8m)，截距3m-1。
$\qquad$
同理B想：我应该以多少概率m出正面，收益会最大？
期望收益E=3m·n + -2m·(1-n)+ -2(1-m)·n + 1(1-m)·(1-n)
优化一下：E=(8n-3)·m +1-3n,是关于m的一次函数，斜率为(8n-3)，截距1-3n。
通过分类讨论，最后能画出如下图：

然后找到纳什均衡点（3/8 ，3/8）

策略分类与博弈表

策略有很多种，之前介绍的基本上是离散型的策略，策略可分为：

策略(strategies):一套完整的行动计划。
$\qquad$
混合策略(mixed strategies): 随机选择的行动。
$\qquad$
纯策略(pure strategies): 最初定义的行动。
$\qquad$
离散型策略:每个参与人只拥有有限个离散型纯策略供其选择。
$\qquad$
连续性策略:每个参与人的纯策略可以是一一个连续区域中的任意一个数。

之前不同参与者策略数量相等的策略，策略数量当然也可以不相等，我们将双方在不同策略组合下的收益表称为博弈表，亦称为支付表：
在这里插入图片描述

解决其纳什均衡问题，常用最优反应分析，但对于这种零和博弈，最小最大值法也不失为好方法，实际上就是极大极小值搜索：
在这里插入图片描述

参考：纳什均衡与零和混合策略博弈问题

qq_43133135

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
博弈论初探

两大基本假设理性人假设与共同知识假设：1、假设人的认知是理性的：人是自我利益的判断者。比如你现在面前有三个不同类型美女：A(可爱)，B(性感)，C(妩媚)你知道自己最喜欢哪种类型的。但是上面可能都没有你最喜欢的，可能你最喜欢D(妖娆)的。具有完备性的偏好应该是：A(可爱)，B(性感)，C(妩媚)，D(妖娆)如果A和B，你的偏爱程度是：A > B。如果B和C，你的偏爱程度是：B > C所以我可以推断，在A和C中，你的偏好是：A>C
复制链接

扫一扫

专栏目录