![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 82
闵帆
机器学习算法 Java 程序员
展开
-
强化学习极简例子--井字棋
井字棋3*3的棋盘上,白、黑子轮流下。如果某方棋子占满同一行、同一列、同一条斜线,则算赢。当棋盘占满还未分出胜负,则为和棋。棋局状态编码由于每个位置有三种可能状态:空(0)、白(1)、黑(2),可用3进制来表示棋局当前状态,其中0行0列表示最低位,0行1列表示次低位。图1. 棋局例图1所示棋局,用3进制表示为001200210,转化为十进制即0×38+0×37+1×36+2×35+0×34+0×33+2×32+1×31+0×30=12360 \times 3^8 + 0 \times 3^7 +原创 2020-08-27 20:39:20 · 2165 阅读 · 6 评论 -
强化学习极简例子--迷宫问题
迷宫图1为一个小型迷宫,其中S为入口,−-−表示墙,+++表示出口。你说出口不在边缘?对的,就是这么任性。图1. 迷宫解法1: 单源最短路径我们把迷宫的各个可达状态进行编号,获得图2.图2. 编号后的迷宫将各可达状态看成节点并编号,则相邻节点之间的距离为1,则迷宫可以转成无向图。令0号节点为源,18号节点为目的,则该问题为单源最短路径问题。但是,我们偏不。解法2: 强化学习强化学习有两个实体: 一是环境,即这里的迷宫;二是智能体(Agent),即一个在迷宫是瞎转悠的人。Agent从源开始原创 2020-08-25 11:09:53 · 2525 阅读 · 2 评论 -
从 AI 级别到人类棋手级别
为增加游戏的趣味性,需要判断人类棋手级别.1. 棋手分析当前涉及三个实体.1.1 传统 AI传统 AI 是指当前使用的 AI, 其机制需要深入理解. 个人而言, 我不太清楚. 猜测: 它赖于 a) 一些既定的规则,与 b) 一定的搜索.级别: 不同级别的 AI 使用不同的规则、不同的搜索策略. 或者相同的搜索策略,但不同的搜索深度。1.2 强化 AI强化 AI是指将使用强化学习与深度学习结合获得的 AI. 它依赖于 a) 一个深度网络, 与 b) 一定的强化学习搜索. 按照这种分析, 强化 A原创 2021-05-22 08:21:13 · 508 阅读 · 2 评论