博弈论学习 | 第七章 Evolutionary Game Theory

Chapter 7 Evolutionary Game Theory

1. Fitness as a Result of Interaction

Evolutionary game theory进化博弈论

结合进化思想的博弈游戏与之前的区别在于,决策不是由选择决定的,而是由基因gene决定,所以需要考虑在更长的时间尺度上的变化,反馈的payoff也是由种群适应度来表示fitness

fitness:类比前面的payoff

gene:类比前面的可选策略。

甲壳虫例子:由于天生基因决定出现了两种甲虫——大甲虫和小甲虫。甲虫互相争夺食物,当相同大小的甲虫竞争会获得相同的食物份额,当一只大甲虫与一只小甲虫竞争时,大甲虫会得到大部分的食物。当两个大甲虫相遇时,由于竞争必须消耗额外的能量,所以不能获得全部fitness。

image-20220214101709110

2. Evolutionarily Stable Strategies(ESS)

Evolutionarily Stable Strategies定义

一种由基因决定的策略,一旦在种群中流行,它往往会持续存在。如果当整个种群使用该策略时,任何使用不同策略的最终会在多代人中消亡,我们说一个给定的策略是进化Evolutionarily Stable的。

ESS在甲虫种群的例子

对小甲虫的种群来说

假设存在极小值$\varepsilon 在 种 群 发 生 突 变 得 到 大 甲 虫 , 则 有 1 − 在种群发生突变得到大甲虫,则有1- 1\varepsilon $得到小甲虫。那么小甲虫的预期payoff为:
5 ( 1 − ε ) + 1 ⋅ ε = 5 − 4 ε 5(1-\varepsilon )+1 \cdot \varepsilon =5-4 \varepsilon 5(1ε)+1ε=54ε
大甲虫的预期payoff为:
8 ( 1 − ε ) + 3 ⋅ ε = 8 − 5 ε 8(1-\varepsilon )+3 \cdot \varepsilon =8-5 \varepsilon 8(1ε)+3ε=85ε
对于足够小的$\varepsilon $,大甲虫的预期适应度超过了小甲虫的预期适应度。因此,小甲虫种群并不是进化稳定的。

对大甲虫的种群来说:

假设存在极小值$\varepsilon 在 种 群 发 生 突 变 得 到 小 甲 虫 , 则 有 1 − 在种群发生突变得到小甲虫,则有1- 1\varepsilon $得到大甲虫。那么小甲虫的预期payoff为:
( 1 − ε ) + 5 ⋅ ε = 1 + 4 ε (1-\varepsilon)+5 \cdot \varepsilon=1+4 \varepsilon (1ε)+5ε=1+4ε
大甲虫payoff:
3 ( 1 − ε ) + 8 ⋅ ε = 3 + 5 ε 3(1-\varepsilon)+8 \cdot \varepsilon=3+5 \varepsilon 3(1ε)+8ε=3+5ε
小甲虫的预期payoff为:

对于足够小的$\varepsilon $,大甲虫的预期适应度超过了小甲虫的预期适应度,因此大甲虫种群在进化上是稳定的。

3. A General Description of Evolutionarily Stable Strategies

开始讨论更加一般化的双人对称进化博弈。

image-20220214152655752

对S种群来说,存在变异体T物种的入侵,同样假设存在极小值$\varepsilon , 种 群 的 ,种群的 \varepsilon 部 分 变 异 成 为 使 用 T 物 种 , 种 群 的 1 − 部分变异成为使用T物种,种群的1− 使T1\varepsilon $部分仍然为S物种。

S的payoff:
a ( 1 − ε ) + b ε a(1-\varepsilon)+b \varepsilon a(1ε)+bε
T的payoff:
c ( 1 − ε ) + d ε c(1-\varepsilon)+d \varepsilon c(1ε)+dε
因此,如果对于 ε \varepsilon ε>0的所有足够小的值,则S是进化稳定的条件是:
a ( 1 − ε ) + b ε > c ( 1 − ε ) + d ε a(1-\varepsilon)+b \varepsilon>c(1-\varepsilon)+d \varepsilon a(1ε)+bε>c(1ε)+dε
所以得到需要满足的条件是:

  1. a>c:这种情况说明S遇到同类S得到的收益需要大于入侵变异物种T遇到S的收益,同时S也是对S种群的best response。直观来说,变异物种T对S的入侵影响小于S对S内部维护种群稳定的影响。
  2. a=c and b > d:如果S和T对S的反应同样好,说明T也是弱最优策略。直观来说,变异物种T在种群中对S的影响和S同类间影响相同,同时需要S与T的种间斗争影响小于T与T种内斗争的影响,这也直接导致变异物种T在种内难以生存以至消亡。

4. Relationship Between Evolutionary and Nash Equilibria

结论:ESS一定是纳什均衡,纳什均衡不一定是ESS。

对上面的例子,纳什均衡(NE)的条件是
a ≥ c a \geq c ac
进化稳定策略(ESS)的条件是
 (i)  a > c , or (ii)  a = c  and  b > d ,  \text { (i) } a>c \text {, or (ii) } a=c \text { and } b>d \text {, }  (i) a>c, or (ii) a=c and b>d
所以存在a=c,但b<d的情况使得(S,S)不是进化稳定的。

同理对严格纳什均衡(Strict NE)的条件
a > c a \gt c a>c
最终结论:
S t r i c t   N E ⊆ E S S ⊆ N E Strict \ NE \subseteq ESS \subseteq NE Strict NEESSNE

5. Evolutionarily Stable Mixed Strategies

现在考虑如何处理没有策略是进化稳定的情况。用混合策略来描述进化稳定性,实际扩大了可能的策略集,每个策略相比纯策略是对应一个特定概率的策略。

进化稳定混合策略可以从两个角度理解

  1. 可能是每个人都天生会玩纯策略,但一部分人玩一种策略,而其余的人玩另一种策略。

  2. 可能是每个人都在玩一种特定的混合策略,他们的基因指定他们会在特定概率的特定选项中随机选择。

对双人对称博弈来说:

image-20220214152655752

动物有p概率成为S,有1-p概率成为T,q同理。所以对一个动物的期望收益为:
V ( p , q ) = p q a + p ( 1 − q ) b + ( 1 − p ) q c + ( 1 − p ) ( 1 − q ) d V(p, q)=p q a+p(1-q) b+(1-p) q c+(1-p)(1-q) d V(p,q)=pqa+p(1q)b+(1p)qc+(1p)(1q)d

Evolutionarily Stable Mixed Strategies定义:

对混合策略来说,存在一种均衡状态使得原物种和入侵者能够共同生存。在这种均衡状态下,原物种和入侵者分别以某种种群比率不断繁衍遗传,从而达到混合ESS。

特别的是,S是一个进化稳定的纯策略,但在p=1的新定义下,它也不一定是一个进化稳定的混合策略。

混合纳什均衡的条件
( 1 − x ) V ( p , p ) + x V ( p , q ) ≥ ( 1 − x ) V ( q , p ) + x V ( q , q ) (1-x) V(p, p)+x V(p, q)\geq(1-x) V(q, p)+x V(q, q) (1x)V(p,p)+xV(p,q)(1x)V(q,p)+xV(q,q)
混合ESS的条件
( 1 − x ) V ( p , p ) + x V ( p , q ) > ( 1 − x ) V ( q , p ) + x V ( q , q ) 且 q ≠ p (1-x) V(p, p)+x V(p, q)>(1-x) V(q, p)+x V(q, q) 且 q \neq p (1x)V(p,p)+xV(p,q)>(1x)V(q,p)+xV(q,q)q=p

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nosimper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值