- 博客(9)
- 资源 (6)
- 收藏
- 关注
原创 David Silver强化学习课程笔记(六)
第六课:值函数估计 好久没有写这个专栏了,现在来补一课,不然前面的都忘掉了~ 本文主要讨论值函数的估计问题,主要研究两类方法:增量方法(Incremental Methods)、批方法(Batch Methods)。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。 在模型无关的预测中,我们介绍了如何...
2017-11-18 21:01:31 3456 11
原创 Python每日小结(九)之 super
今天我们来学习一个比较有用的方法(类),叫做super。为什么要学习这个方法?这个方法有什么用? 比如说,我们在写一个类,现在要调用其父类的某个方法,在Python2.2之前,通常是这样写的:class A: def __init__(self): print "A" print "~A"class B(A): de...
2017-11-09 14:48:54 193
原创 DDPG之OU过程
Ornstein-Uhlenbeck过程浅析 上周在实现DDPG的过程中,发现其中用到了一个没见过的随机过程,叫做Ornstein-Uhlenbeck过程,所以简单地去了解了一下,下面我们进行概要讨论。 OU过程是一种序贯相关的过程,在DDPG中用于实现RL的探索,想想也对,毕竟RL也是一种序贯相关模型,引入序贯噪声也不无道理。先参考维基百科看看OU过程长什么样子,OU...
2017-11-06 20:04:08 15184 24
原创 Python每日小结(八)之 logging模块
Python logging模块 logging模块为我们提供了通用的日志系统,我们可以选择使用不同的日志级别,并且可以采用不同的方式记录日志,比如文件,HTTP GET/POST,SMTP,Socket等,或者我们也可以实现自己的日志记录方式,下面参考Logging facility for python对logging模块进行简要说明。 该模块提供了四个...
2017-11-06 09:55:21 369
原创 Python每日小结(七)之 标准random模块与numpy.random
1.random.choice与random.sample Python标准库中的random模块,可以生成随机浮点数、整数、字符串,甚至帮助我们随机选择列表序列中的一个元素,打乱一组数据等。 下面我们主要关注random.choice函数与random.sample函数。 random.choice(seq): 从一个非空序列...
2017-11-03 11:06:14 1537
原创 TensorFlow学习笔记(五)
模型保存与载入 在深度学习或强化学习中,我们训练一个模型常常需要较长的时间,因而我们萌生了想要将模型记录下来的想法,如何做到呢?下面我们来学习两种方法解决这一问题,参考自TensorFlow Programmers' Guide。 1.最最最最基本的方法 利用tf.train.Saver类实现模型的保存与载入。tf.train.Saver类的构造函数为所有...
2017-11-03 09:14:09 347
原创 Gym小记(五)
让你的小车跑起来吧 CarRacing-v0环境是一个很简单的类似于循迹小车的问题,如下图所示: 我们的目标就是控制小车在轨道内跑起来,并且尽可能快地飞驰。 该环境给出了一个最简单的连续控制任务,它要求我们从俯视视角所得到的像素中进行学习,所以state就是96*96的图像,当然,我们在训练神经网络的时候,可以对环境给出的observation再取一个降采...
2017-11-01 08:48:50 7816 12
David Silver强化学习课程课件
2018-05-23
DQN实现的两种版本
2018-03-17
引导策略搜索介绍 - GPS
2017-11-24
Batch Normalization简介
2017-11-24
机器人中的强化学习技术
2017-11-24
贝叶斯线性回归 - Bayes
2017-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人