David Silver深度强化学习第10课

最新推荐文章于 2022-11-28 19:41:48 发布

war3gu

最新推荐文章于 2022-11-28 19:41:48 发布

阅读量315

点赞数

分类专栏：强化学习文章标签： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/war3gu/article/details/90615796

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

纳什均衡中所有人都达到最优策略，没人愿意改变策略，改变意味着漏出破绽，别人就会改变策略，打败你。

纳什均衡策略，就是你的最优策略，也是别人的最优策略，是所有参与者的最优策略。这个策略没有漏洞，无法被针对，其余的策略，都是可以被针对的，这一个是例外的。

可以这么理解：游戏玩家不停的根据对手的策略修改自己的策略，直到所有人都达到一个最优的策略，那就是纳什均衡。

别人改变策略，你的rl环境就变了，你改变策略，别人的rl环境就变了。大家不停的升级，直到纳什均衡，所有人的策略都不变，这时就是最后一个MDP问题，解决这个问题，就是最优策略。

还可以这么理解：游戏玩家不停进化策略，但是这个进化有个终点。因为有一个游戏规则，这个游戏规则确定了进化终点，即纳什均衡。

多人对弈的时候，假设所有玩家都是高手，玩家不停的优化自己的策略，最终会达到纳什均衡，玩家不再调整自己的，此时对弈就变为一个MDP问题。这个MDP问题的最优策略就是玩家的最优回应。

Minimax Search 可以理解为对弈双方都走出最强手后的棋盘价值函数。我的最强手最大化我的价值函数，对方的最强手最小化我的价值函数。

所谓的afterstates就是action之后，只有一个固定的state，不存在概率跳转到不同的state，比如围棋象棋就是这样的游戏。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。