一个想法:走向“纳什均衡”是普遍存在的大趋势

1817f7cc5c1a32dae3ec09dbcf36c9fc.gif

©作者 | coolmud

单位 | 中国移动研究院

研究方向 | 博弈论、机器学习

“纳什均衡”(Nash Equilibrium)是博弈(game)中一种特别状态:每个玩家单方面改变自己的策略(strategy)都不会有更好的收益。因此,所有玩家都会固守自己的策略,否则“不一定损人但一定不利己”,从而使得这个均衡状态具备一定的稳定性。1951 年,约翰·纳什就在数学上证明了均衡点存在。不过,虽然我们能体会玩家们不愿意离开均衡点,迄今为止却很少在现实世界中找到纳什均衡的存在,也找不到把玩家们推向均衡点的力量。事实上,玩家们实在没有理由主动去找均衡点而因此被困住。更重要的是,就算本着“公心”,在均衡点所有玩家收益总和还往往不是最高的。话句话说,在现实世界,无论是人类社会,还是广泛大自然,一个博弈要走向纳什均衡,要么有个超越于普通玩家的“协调者”在主动促成,要么是玩家们普遍的、不自觉的、简单的行为导致。 

我们先来排除协调者的可能性。首先协调者也没有动机搞什么“高大上”的纳什均衡,因为就算它能忍受不是最高的收益总和,也未必喜欢过于稳定而失去改变的能力。其次就是,协调者未必做得到。在玩家数量很多、策略数量也很多的情况下,协调者如何能够通悉所有玩家的收益情况?采用何种高效的算法?哪来的算力?要知道数学上可没有非常高效的算法,尤其是多人博弈。最后就是,回到刚才说的,就算协调者计算出均衡点,要为数众多的玩家通通欣然接受照做其策略也是一个大工程。因此,协调者的意愿不太可能是推动纳什均衡的动力。 

剩下的可能就是,在没有协调者的情况下, 玩家们的行为导致博弈走向均衡。假如真是这样,这种行为应该是玩家们普遍具备的,也应该是玩家本能驱动或者大自然规律强制的。因此,这个行为最终也应该是简单的,简单到每个玩家只需要看到自己的收益情况就能不断调整自身策略,而不需要考虑其他众多玩家的策略、收益情况,更不用关心均衡点在哪里。另外,简单意味着玩家们行为只需要极少的计算,最好是丁点都没有。 

而本文的主要观点就是,在现实世界玩家这种行为是普遍存在的,所以博弈走向纳什均衡是普遍存在的趋势。这种行为就是“平滑地、等比例地压制零遗憾策略”。

f1651bd44aac8f3838f76772d2a158f7.png

论文标题:

Geometrical regret matching: A new dynamics to Nash equilibrium

论文地址:

https://doi.org/10.1063/5.0012735

论文代码:

https://github.com/lansiz/eqpt

d51c559fb82f7ed122fdb56ac14c9446.png

“平滑地、等比例地压制零遗憾策略”

这句话我们可以拆开来讲。先说说“零遗憾(regret)的策略”。假设某玩家具备三个策略 (A, B, C),且该玩家使用纯策略获得的收益分别为20、-30、50,表示为 [20, -30, 50]。又假设在某次博弈中该玩家采用了混合策略,例如 (0.6, 0.3, 0.1),那么玩家得到的收益是把混合策略当做概率分布进行计算࿱

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值