机器学习（三十九）——博弈论（2）, Exploration & Exploitation

最新推荐文章于 2024-09-21 19:50:04 发布

antkillerfarm

最新推荐文章于 2024-09-21 19:50:04 发布

阅读量1.8k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/antkillerfarm/article/details/103859188

版权

机器学习专栏收录该内容

38 篇文章

订阅专栏

博弈论

智猪博弈问题

智猪博弈问题是John Nash于1950年提出的问题。

在一个猪圈里养着一头大猪和一头小猪，在猪圈的一端放有一个猪食槽，在另一端安装有一个按钮，它控制着猪食的供应量。假定：

猪按一下按钮，就有8单位猪食进槽，但谁按按钮就会首先付出2单位成本；
若大猪先到食槽，则大猪吃到7单位食物，而小猪仅能吃到1单位食物；
若小猪先到，则大猪和小猪各吃到4单位食物；
若两猪同时到，则大猪吃到5单位，小猪仅吃到3单位。

显然，在这里按按钮有两个成本：

直接成本：2单位成本。
间接成本：先按按钮的猪，肯定会最后到达食槽。

因此，这个问题写成策略矩阵，则是：

		小猪
		按	等待
大猪	按	3,1	2,4
大猪	等待	7,-1	0,0

该博弈不存在占优战略均衡，因为尽管小猪有一个严格占优战略，但大猪并没有占优战略。

为了解决这个问题，Nash提出了重复剔除的占优战略均衡（iterated dominance equilibrium）。

其具体做法如下：

Step 1：大猪没有劣战略，策略保持不变。

Step 2：小猪有一个劣战略: “按”。

“按”的支付值： 1, -1

“等待”的支付值： 4, 0

Step 3：剔除小猪的劣战略“按”。

Step 4：剔除之后，大猪有一个劣战略：“等待”。

Step 5：剔除大猪的劣战略“等待”，剩下最后一个战略组合：

大猪：“按” + 小猪：“等待”

在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！

最大最小策略

0阶理性共识：每个人都是理性的，但不知道其他人是否是理性的；

1阶理性共识：每个人是理性的，并且知道其他每个人也都是理性的，但并不知道其他人是否知道自己是理性的；

2阶理性共识：每个人是理性的，并且知道其他每个人也都是理性的，并且知道其他人知道自己是理性的，但不知道其他人是否知道自己知道其他人都是理性的。。。。。。。3阶、4阶。。。n阶依次类推。

重复剔除不仅要求每个人是理性的，而且要求每个人知道其他人都是理性的，每个人知道每个人知道每个人是理性的，如此等等，即理性是“共识”。

优势策略均衡与纳什均衡的概念是建立在博弈者理性行为的基础上的，任何出现的一点错误将可能使博弈者蒙受巨大的损失，因而可能有player会采取比较保守的策略。

其中一种保守的策略是最大最小策略（Maximin strategy)。

它是指博弈者所采取的策略是使自己能够获得的最小收入最大化。所谓最小收入是指采取某种策略所能获得的最小收入。

最大最小策略是一种保守的策略而不是利润最大化的策略。

很显然，博弈者往往是在信息不完全的情况下才采取最大最小策略。在信息完全的情形下，他肯定是会采取促使他利润最大化的策略。

在囚徒困境问题中，两人都坦白是最大最小策略，而两人都抵赖则是利润最大化策略。

最大最小均衡存在以下问题：

“最大最小”均衡没有考虑到局中人之间在策略选择上的互动。
由“最大最小”方法得到的“均衡”很难说是一种“均衡”。

其他博弈问题

当年英国政府将流放澳洲的犯人交给往来于澳洲之间的商船来完成，由此经常会发生因商船主或水手虐待犯人，致使大批流放人员因此死在途中(葬身大海)的事件发生。

后来大英帝国对运送犯人的办法(制度)稍加改变，流放人员仍然由往来于澳洲的商船来运送，只是运送犯人的费用要等到犯人送到澳洲后才由政府按实到犯人人数支付给商船。

仅就这样一点小小的“改变”，几乎再也没有犯人于中途死掉的事情发生。

枪手博弈是指，在三个枪手A、B、C之间一场对决即将展开，枪手A的枪法最好，命中率达到80%；枪手B的枪法次之命中率60%；而枪手C的命中率最差只有50%。

而此时由于是三方对决，先瞄准谁成了关键，对于A枪手来说，当然先瞄准仅次于他的B枪手，但对于B和C枪手而言，威胁最大的当然是A，在A倒下后B面对C的胜率会大很多，同时C的存活率也会提高，所以枪口都会对上A。

结论：

第一轮枪战，枪法最差的C竟然存活概率最大——肯定存活，而枪法好的A和B存活概率远低于C。启示：韬晦很重要。
如果在第一轮枪战中A、B均被击中，则C成为最终幸存者；只要A、B在第一轮枪战中有一人存活，那最终胜出的很可能是A和B中的幸存者。启示：实力很关键。能力较差的C靠着策略虽然能在第一轮枪战中暂时获胜，但只要A、B在第一轮枪战中有一人存活，那么第二轮枪战里C的存活的概率就会比对手低了。

参考

https://www.cnblogs.com/steven-yang/tag/博弈论/

一个博弈论的专栏

https://mp.weixin.qq.com/s/5o3m8RLwYkZJEhqNxOLq_A

不对称多代理博弈中的博弈理论解读

https://mp.weixin.qq.com/s/D9bRjYVJOMT0Jkh59XZ-Rg

DeepMind于Nature子刊发文提出非对称博弈的降维方法

https://mp.weixin.qq.com/s/1t6WuTQpltMtP-SRF1rT4g

当博弈论遇上机器学习：一文读懂相关理论

https://news.mbalib.com/story/242878

智猪博弈、龟兔悖论、谷堆悖论…这些有趣的博弈论值得一看！

https://blog.csdn.net/qq_27351341/article/details/81119533

偏好函数、无差异曲线、帕累托标准、卡尔多-希克斯标准等基础概念

https://blog.csdn.net/qq_27351341/article/details/81138774

囚徒困境、智猪博弈、纳什均衡与一致预期

https://blog.csdn.net/qq_27351341/article/details/81268801

多重均衡与制度和文化

https://blog.csdn.net/qq_27351341/article/details/81276298

动态博弈、威胁与承诺

https://blog.csdn.net/sobermineded/article/details/79541511

几个经典博弈模型（囚徒的困境、赌胜博弈、产量决策的古诺模型）

Exploration & Exploitation

几个基本的探索方法：

朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个 $\epsilon$ 以实现朴素探索；
乐观初始估计(Optimistic Initialization): 优先选择当前被认为是最高价值的行为，除非新信息的获取推翻了该行为具有最高价值这一认知；
不确定优先(Optimism in the Face of Uncertainty): 优先尝试不确定价值的行为；
概率匹配（Probability Matching): 根据当前估计的概率分布采样行为；
信息状态搜索(Information State Search): 将已探索的信息作为状态的一部分联合个体的状态组成新的状态，以新状态为基础进行前向探索。