David Silver深度强化学习第10课

纳什均衡中所有人都达到最优策略,没人愿意改变策略,改变意味着漏出破绽,别人就会改变策略,打败你。

纳什均衡策略,就是你的最优策略,也是别人的最优策略,是所有参与者的最优策略。这个策略没有漏洞,无法被针对,其余的策略,都是可以被针对的,这一个是例外的。

可以这么理解:游戏玩家不停的根据对手的策略修改自己的策略,直到所有人都达到一个最优的策略,那就是纳什均衡。

别人改变策略,你的rl环境就变了,你改变策略,别人的rl环境就变了。大家不停的升级,直到纳什均衡,所有人的策略都不变,这时就是最后一个MDP问题,解决这个问题,就是最优策略。

还可以这么理解:游戏玩家不停进化策略,但是这个进化有个终点。因为有一个游戏规则,这个游戏规则确定了进化终点,即纳什均衡。

多人对弈的时候,假设所有玩家都是高手,玩家不停的优化自己的策略,最终会达到纳什均衡,玩家不再调整自己的,此时对弈就变为一个MDP问题。这个MDP问题的最优策略就是玩家的最优回应。

Minimax Search 可以理解为对弈双方都走出最强手后的棋盘价值函数。我的最强手最大化我的价值函数,对方的最强手最小化我的价值函数。

所谓的afterstates就是action之后,只有一个固定的state,不存在概率跳转到不同的state,比如围棋象棋就是这样的游戏。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值