2018年05月_剑魄未改

07月 05月 04月

原创井字棋讲解

井字棋讲解井字棋最重要的部分便是AI的训练部分，现在我确实还一知半解，如何决策步骤的保留进行探索，我还处于一脸懵逼状态。以下是实现代码： 1.库函数等准备 from __future__ import print_function #把下一个版本应用到当前版本 import numpy as np #数据处理函数 import pickle #数据储存模块 BOARD_R...

2018-05-15 13:08:22 1981 3

原创强化学习导论（Reinforcement Learning：An Introduction）学习笔记（八）

2.2 行动价值法（Action-value Methods）我们首先仔细研究一些简单的方法来估计行动的价值和用估计值做出行动选择决策。回想一下，行动的真正价值是选择行动时的平均回报。估计这种情况的一种自然方法是平均实际收到的回报: Qt(a)≐sumofrewardswhenatakenpriortotnumberoftimesatakenpriortot=∑t−1i=1Ri⋅...

2018-05-11 14:43:13 983 1

原创强化学习导论（Reinforcement Learning：An Introduction）学习笔记（七）

Part I: 表格解决方法在本书的这一部分中，我们以最简单的形式描述了几乎所有强化学习算法的核心思想：算法中的状态和动作空间足够小，可以将近似值函数表示为数组或表格。在这种情况下，这些方法通常可以找到确切的解决方案，也就是说，他们经常可以找到最佳的价值函数和最优策略。这与本书下一部分描述的近似方法形成对比，后者只找到近似解，但是作为回报可以有效应用于更大的问题。本书的...

2018-05-08 19:05:20 925

flappybird强化学习

自动训练厉害的高分游戏。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2018-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 井字棋讲解