纳什均衡和博弈论基础

博弈论

1.玩家:N= {1, ... , n}

2.行动:玩家可以采取某些行动来影响世界

3.收益:效用

4.偏好:对于结果的偏好(完备性、传递性)

5.策略互动:一般性、抽象性的框架(在博弈论中,策略互动是指个体之间的互动和决策过程。)

--例1

两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。

  • 两人都坦白:被判刑2年
  • 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
  • 两人都保持沉默:两人都因轻罪被判刑1年。
沉默坦白
沉默-1,-1-3,0
坦白0,-3-2,-2

“正态形式的游戏”:矩阵表示法   “Normal-form games”: Matrix representation

正态形式的游戏 Normal-Form Games

有些复杂一些的问题没有办法用矩阵表达,比如造反问题。

--例2

共有100,000个人,每个人可以选择造反或者不造反,只有达到20,000个人才算造反成功。

如果造反达到人数要求,无论决策者选择什么收益都是1;

如果造反没有达到人数要求,则决策者选择造反的收益是-1;

如果造反没有达到人数要求,则决策者选择不造反的收益是0。

纯策略纳什均衡 

--例3

两名罪犯被捕。审问者没有足够的证据定罪,但可以因为一次轻罪将他们定罪。

  • 两人都坦白:被判刑2年
  • 若其中一个坦白,另一个不坦白,坦白的一方被释放,而另一方被判3年。
  • 两人都保持沉默:两人都因轻罪被判刑1年。
沉默坦白
沉默-1,-1-3,0
坦白0,-3-2,-2

1.已知:犯罪分子1 -> 保持沉默

   犯罪分子2:

(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年

(2)坦白 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年

  对于犯罪分子2,坦白是最佳行动。

2.已知:犯罪分子1 -> 坦白

  犯罪分子2:

(1) 保持沉默 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年

(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年

  对于犯罪分子2,坦白是最佳行动。

3.已知:犯罪分子2 -> 保持沉默

  犯罪分子1:

(1) 保持沉默 -> (-1,-1):犯罪分子1判1年,犯罪分子2判1年

(2)坦白 -> (0,-3):犯罪分子1判0年,犯罪分子2判3年

  对于犯罪分子1,坦白是最佳行动。

4.已知:犯罪分子2 -> 坦白

犯罪分子1:

(1) 保持沉默 -> (-3,0):犯罪分子1判3年,犯罪分子2判0年

(2)坦白 -> (-2,-2):犯罪分子1判2年,犯罪分子2判2年

  对于犯罪分子1,坦白是最佳行动。

结果:纯粹纳什均衡:(坦白, 坦白)。

 

纯战略均衡总是纳什均衡(在纯战略中),而纳什均衡并不总是纯战略均衡;它可能是纯战略均衡,也可能是混合战略均衡。 

混合纳什均衡

  • 以安保设置检查关卡、攻击者制定策略攻击关卡的博弈问题引出混合策略。防止被预测
  • 纯策略每次决策选择的是具体的动作,而混合策略每次决策选择的是概率分布。纯策略纳什均衡是混合策略纳什均衡的一种。
  • 纯策略均衡:每个决策者都是根据已知其他决策者的选择从而做出决策,并且在已知其他决策者选择的前提下没有改变自己决策的动机。
  • 混合策略均衡:每个决策者只可以调整自己的决策分布,而自己的效用则由其他决策者的决策分布决定。

计算2x2博弈中的纳什均衡

步骤1:计算至少有一个玩家采用纯策略的所有纳什均衡。

步骤2:计算两个玩家都在两种策略之间混合的所有纳什均衡。

在这种情况下,每个玩家必须在这两种策略之间持中立态度。

 

Dominant Strategies 主导策略: 

迭代剔除劣势策略 

--Example 10

金球游戏

每个玩家都有一套两个球,一个标有“分割”而另一个标有“偷取”。设有一个奖金池,例如说,$1000。

• 如果两位玩家都选择“分割”,他们每人得到奖金池的一半。

• 如果一名玩家选择“分割”而另一名玩家选择“偷取”,选择“偷取”的玩家将得到整个奖金池,而选择“分割”的玩家什么都得不到。

• 如果两位玩家都选择“偷取”,他们两人都什么都得不到。

 

“分割”并没有被“偷取”严格主导,所以不能移除“分割”!

情况1:至少有一位玩家采纳纯策略

1.A -> 分割:B-> 分割=>(500,500), B-> 偷取=>(0,1000) , (分割, 偷取)

2.A -> 偷取:B-> 分割=>(1000,0), B-> 偷取=>(0,0)

3.B -> 分割:A-> 分割=>(500,500), A-> 偷取=>(1000,0) , (分割, 偷取)

4.B -> 偷取:A-> 分割=>(0,1000), A-> 偷取=>(0,0)

• 行选择偷取 --> 列 = q*分割 + (1-q)偷取 对于任何 0 <= q <= 1 --> 行选择偷取是对于每个q的最佳回应 --> (偷取, q分割 + (1-q)偷取)

• 从列开始的相似推理 --> (偷取, 分割), (p分割 + (1-p)偷取, 偷取)

总结:(偷取, q分割 + (1-q)偷取) 对于任何 0 <= q <= 1

(p分割 + (1-p)*偷取, 偷取) 对于任何 0 <= p <= 1

情况2:两位玩家都在两种策略之间混合

假设行玩家以概率(p, 1-p)选择(分割, 偷取),而列玩家以概率(q, 1-q)选择,其中 0 < p, q < 1

• 行玩家持中立态度 --> 500q + 0(1-q) = 1000q + 0(1-q) --> q = 0

• 这与本案例的假设相矛盾!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
纳什均衡博弈论的一个重要概念,对于多人博弈模型,可以使用Matlab进行计算。下面是一个简单的纳什均衡计算的Matlab代码示例: ```matlab % 定义收益矩阵 payoff_matrix = [2 0; 0 1]; % 定义两名玩家的策略空间和初始策略 strategies = [0 1; 0 1]; player1_strategy = 1; player2_strategy = 1; % 计算每个玩家的收益 player1_payoff = payoff_matrix(player1_strategy, player2_strategy); player2_payoff = payoff_matrix(player2_strategy, player1_strategy); % 迭代计算纳什均衡 for i = 1:100 % 更新玩家1的策略 [~, max_index] = max(payoff_matrix(:, player2_strategy)); player1_strategy = max_index; % 更新玩家2的策略 [~, max_index] = max(payoff_matrix(player1_strategy, :)); player2_strategy = max_index; % 计算每个玩家的收益 player1_payoff = payoff_matrix(player1_strategy, player2_strategy); player2_payoff = payoff_matrix(player2_strategy, player1_strategy); end % 输出纳什均衡策略和收益 fprintf('纳什均衡策略为: (%d,%d)\n', player1_strategy, player2_strategy); fprintf('玩家1的收益为: %d\n', player1_payoff); fprintf('玩家2的收益为: %d\n', player2_payoff); ``` 这个代码示例使用了一个2人博弈的收益矩阵,其中第一行是玩家1的收益,第二行是玩家2的收益。初始化时,玩家1和玩家2的策略都是第一列,即选择第一种策略。然后使用一个简单的迭代算法来计算纳什均衡策略。在每一次迭代中,玩家1会选择收益最大的策略,而玩家2会选择玩家1在当前策略下收益最大的策略。最终,程序输出纳什均衡策略和每个玩家的收益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值