TicTacToe井字棋 by reinforcement learning

最新推荐文章于 2020-05-21 08:46:10 发布

weixin_34260991

最新推荐文章于 2020-05-21 08:46:10 发布

阅读量270

点赞数

文章标签：人工智能 javascript python ViewUI

原文链接：http://www.cnblogs.com/heidouInBlueSky/p/5742326.html

版权

对于初学强化学习的同学，数学公式也看不太懂，一定希望有一些简单明了的代码实现加强对入门强化学习的直觉认识，这是一篇初级入门代码，希望能对你们开始学习强化学习起到基本的作用.

井字棋具体玩法参考百度，这篇文字主要是用强化学习中Q-learning实现游戏过程中各个状态Q（S，a）计算，在代码最后是一个人机对弈的过程，电脑走第一步.

在Q-learning中，各个Q(S,a)的计算公式如下：

Q（S,a） = Q（S,a） + 0.1 * (reward(s,a) + 0.9 * Q（S',a'） - Q（S,a）)

reward(s,a)在电脑赢时返回1，电脑输时返回-1，其他时候返回0

在计算完Q（S,a）后，有一个人机对战代码，board = [0, 0, 0, 0, 0, 0, 0, 0, 0]，代表棋盘初始状态，电脑会选择最大Q（s,a）走第一步，假如电脑选择的是位置3，那棋盘就成为board = [0, 0, 0, 1, 0, 0, 0, 0, 0]，玩家也就是你随机选择一个位置，假如是位置0，在键盘输入0,棋盘变为board = [2, 0, 0, 1, 0, 0, 0, 0, 0]，继续下去，直到结束状态。

我从没赢过电脑

代码位置：https://github.com/k13795263/TicTacToe/blob/master/TicTacToe.py

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

“more support, more energy， more useful code”

赞助魔方

<script type="text/javascript" src="//ri.revolvermaps.com/0/0/6.js?i=8kcekaxofo2&m=7&s=320&c=e63100&cr1=ffffff&f=arial&l=0&bv=90&lx=-420&ly=420&hi=20&he=7&hc=a8ddff&rs=80" async="async"></script>

转载于:https://www.cnblogs.com/heidouInBlueSky/p/5742326.html

weixin_34260991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TicTacToe井字棋 by reinforcement learning

对于初学强化学习的同学，数学公式也看不太懂，一定希望有一些简单明了的代码实现加强对入门强化学习的直觉认识，这是一篇初级入门代码，希望能对你们开始学习强化学习起到基本的作用.井字棋具体玩法参考百度，这篇文字主要是用强化学习中Q-learning实现游戏过程中各个状态Q（S，a）计算，在代码最后是一个人机对弈的过程，电脑走第一步.在Q-learning中，各个Q(S,a)的计...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。