自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

剑魄未改的博客

“就凭你提着把破剑也想闯荡江湖?”

  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 井字棋讲解

井字棋讲解 井字棋最重要的部分便是AI的训练部分,现在我确实还一知半解,如何决策步骤的保留进行探索,我还处于一脸懵逼状态。以下是实现代码: 1.库函数等准备 from __future__ import print_function #把下一个版本应用到当前版本 import numpy as np #数据处理函数 import pickle #数据储存模块 BOARD_R...

2018-05-15 13:08:22 1981 3

原创 强化学习导论(Reinforcement Learning:An Introduction)学习笔记(八)

2.2 行动价值法(Action-value Methods) ​ 我们首先仔细研究一些简单的方法来估计行动的价值和用估计值做出行动选择决策。 回想一下,行动的真正价值是选择行动时的平均回报。 估计这种情况的一种自然方法是平均实际收到的回报: Qt(a)≐sumofrewardswhenatakenpriortotnumberoftimesatakenpriortot=∑t−1i=1Ri⋅...

2018-05-11 14:43:13 983 1

原创 强化学习导论(Reinforcement Learning:An Introduction)学习笔记(七)

Part I: 表格解决方法 ​ 在本书的这一部分中,我们以最简单的形式描述了几乎所有强化学习算法的核心思想:算法中的状态和动作空间足够小,可以将近似值函数表示为数组或表格。 在这种情况下,这些方法通常可以找到确切的解决方案,也就是说,他们经常可以找到最佳的价值函数和最优策略。这与本书下一部分描述的近似方法形成对比,后者只找到近似解, 但是作为回报可以有效应用于更大的问题。 ​ 本书的...

2018-05-08 19:05:20 925

flappybird强化学习

自动训练厉害的高分游戏。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2018-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除