自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微念的博客

等不到天黑,烟火不会太完美。

  • 博客(9)
  • 资源 (6)
  • 收藏
  • 关注

原创 David Silver强化学习课程笔记(六)

第六课:值函数估计        好久没有写这个专栏了,现在来补一课,不然前面的都忘掉了~        本文主要讨论值函数的估计问题,主要研究两类方法:增量方法(Incremental Methods)、批方法(Batch Methods)。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。        在模型无关的预测中,我们介绍了如何...

2017-11-18 21:01:31 3456 11

原创 浅谈Batch Normalization

本文对Batch Normalization作了简要介绍。

2017-11-09 20:39:36 670

原创 Python每日小结(九)之 super

        今天我们来学习一个比较有用的方法(类),叫做super。为什么要学习这个方法?这个方法有什么用?        比如说,我们在写一个类,现在要调用其父类的某个方法,在Python2.2之前,通常是这样写的:class A: def __init__(self): print "A" print "~A"class B(A): de...

2017-11-09 14:48:54 193

原创 DDPG之OU过程

Ornstein-Uhlenbeck过程浅析        上周在实现DDPG的过程中,发现其中用到了一个没见过的随机过程,叫做Ornstein-Uhlenbeck过程,所以简单地去了解了一下,下面我们进行概要讨论。        OU过程是一种序贯相关的过程,在DDPG中用于实现RL的探索,想想也对,毕竟RL也是一种序贯相关模型,引入序贯噪声也不无道理。先参考维基百科看看OU过程长什么样子,OU...

2017-11-06 20:04:08 15184 24

原创 Python每日小结(八)之 logging模块

      Python logging模块        logging模块为我们提供了通用的日志系统,我们可以选择使用不同的日志级别,并且可以采用不同的方式记录日志,比如文件,HTTP GET/POST,SMTP,Socket等,或者我们也可以实现自己的日志记录方式,下面参考Logging facility for python对logging模块进行简要说明。        该模块提供了四个...

2017-11-06 09:55:21 369

原创 Python每日小结(七)之 标准random模块与numpy.random

       1.random.choice与random.sample        Python标准库中的random模块,可以生成随机浮点数、整数、字符串,甚至帮助我们随机选择列表序列中的一个元素,打乱一组数据等。        下面我们主要关注random.choice函数与random.sample函数。        random.choice(seq):        从一个非空序列...

2017-11-03 11:06:14 1537

原创 TensorFlow学习笔记(五)

模型保存与载入        在深度学习或强化学习中,我们训练一个模型常常需要较长的时间,因而我们萌生了想要将模型记录下来的想法,如何做到呢?下面我们来学习两种方法解决这一问题,参考自TensorFlow Programmers' Guide。        1.最最最最基本的方法        利用tf.train.Saver类实现模型的保存与载入。tf.train.Saver类的构造函数为所有...

2017-11-03 09:14:09 347

原创 Gym小记(七)

本文补充介绍了如何利用force=True参数来覆盖掉上次运行生成的记录文件。

2017-11-01 16:17:45 2941 1

原创 Gym小记(五)

让你的小车跑起来吧        CarRacing-v0环境是一个很简单的类似于循迹小车的问题,如下图所示:        我们的目标就是控制小车在轨道内跑起来,并且尽可能快地飞驰。        该环境给出了一个最简单的连续控制任务,它要求我们从俯视视角所得到的像素中进行学习,所以state就是96*96的图像,当然,我们在训练神经网络的时候,可以对环境给出的observation再取一个降采...

2017-11-01 08:48:50 7816 12

David Silver强化学习课程课件

该资源是David Silver的强化学习课程所对应的ppt。 该资源是David Silver的强化学习课程所对应的ppt。 该资源是David Silver的强化学习课程所对应的ppt。

2018-05-23

DQN实现的两种版本

关于DQN的两种版本(使用stop_gradient与不使用stop_gradient) 对不起.....我不知道怎么将文件放到CSDN博客中下载,所以只能放这边了,没有资源分为0的选项.....

2018-03-17

引导策略搜索介绍 - GPS

简要介绍了论文《Guided Policy Search》,包括DDP,重要性采样等。 简要介绍了论文《Guided Policy Search》,包括DDP,重要性采样等。 简要介绍了论文《Guided Policy Search》,包括DDP,重要性采样等。

2017-11-24

Batch Normalization简介

对Batch Normalization论文进行了解读,用通俗的视角理解Batch Normalization。 对Batch Normalization论文进行了解读,用通俗的视角理解Batch Normalization。 对Batch Normalization论文进行了解读,用通俗的视角理解Batch Normalization。

2017-11-24

机器人中的强化学习技术

简要介绍了强化学习在机器人方向上的挑战以及可行性方法。 简要介绍了强化学习在机器人方向上的挑战以及可行性方法。 简要介绍了强化学习在机器人方向上的挑战以及可行性方法。

2017-11-24

贝叶斯线性回归 - Bayes

介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。 介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。 介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。

2017-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除