2017年11月_微丶念

12月 11月 10月 06月 03月

原创 David Silver强化学习课程笔记（六）

第六课：值函数估计好久没有写这个专栏了，现在来补一课，不然前面的都忘掉了～本文主要讨论值函数的估计问题，主要研究两类方法：增量方法（Incremental Methods）、批方法（Batch Methods）。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。在模型无关的预测中，我们介绍了如何...

2017-11-18 21:01:31 3456 11

原创浅谈Batch Normalization

本文对Batch Normalization作了简要介绍。

2017-11-09 20:39:36 670

原创 Python每日小结（九）之 super

今天我们来学习一个比较有用的方法（类），叫做super。为什么要学习这个方法？这个方法有什么用？比如说，我们在写一个类，现在要调用其父类的某个方法，在Python2.2之前，通常是这样写的：class A: def __init__(self): print "A" print "~A"class B(A): de...

2017-11-09 14:48:54 193

原创 DDPG之OU过程

Ornstein-Uhlenbeck过程浅析上周在实现DDPG的过程中，发现其中用到了一个没见过的随机过程，叫做Ornstein-Uhlenbeck过程，所以简单地去了解了一下，下面我们进行概要讨论。 OU过程是一种序贯相关的过程，在DDPG中用于实现RL的探索，想想也对，毕竟RL也是一种序贯相关模型，引入序贯噪声也不无道理。先参考维基百科看看OU过程长什么样子，OU...

2017-11-06 20:04:08 15184 24

原创 Python每日小结（八）之 logging模块

Python logging模块 logging模块为我们提供了通用的日志系统，我们可以选择使用不同的日志级别，并且可以采用不同的方式记录日志，比如文件，HTTP GET/POST，SMTP，Socket等，或者我们也可以实现自己的日志记录方式，下面参考Logging facility for python对logging模块进行简要说明。该模块提供了四个...

2017-11-06 09:55:21 369

原创 Python每日小结（七）之标准random模块与numpy.random

1.random.choice与random.sample Python标准库中的random模块，可以生成随机浮点数、整数、字符串，甚至帮助我们随机选择列表序列中的一个元素，打乱一组数据等。下面我们主要关注random.choice函数与random.sample函数。 random.choice(seq)：从一个非空序列...

2017-11-03 11:06:14 1537

原创 TensorFlow学习笔记（五）

模型保存与载入在深度学习或强化学习中，我们训练一个模型常常需要较长的时间，因而我们萌生了想要将模型记录下来的想法，如何做到呢？下面我们来学习两种方法解决这一问题，参考自TensorFlow Programmers' Guide。 1.最最最最基本的方法利用tf.train.Saver类实现模型的保存与载入。tf.train.Saver类的构造函数为所有...

2017-11-03 09:14:09 347

原创 Gym小记（七）

本文补充介绍了如何利用force=True参数来覆盖掉上次运行生成的记录文件。

2017-11-01 16:17:45 2941 1

原创 Gym小记（五）

让你的小车跑起来吧 CarRacing-v0环境是一个很简单的类似于循迹小车的问题，如下图所示：我们的目标就是控制小车在轨道内跑起来，并且尽可能快地飞驰。该环境给出了一个最简单的连续控制任务，它要求我们从俯视视角所得到的像素中进行学习，所以state就是96*96的图像，当然，我们在训练神经网络的时候，可以对环境给出的observation再取一个降采...

2017-11-01 08:48:50 7816 12

David Silver强化学习课程课件

该资源是David Silver的强化学习课程所对应的ppt。该资源是David Silver的强化学习课程所对应的ppt。该资源是David Silver的强化学习课程所对应的ppt。

2018-05-23

DQN实现的两种版本

关于DQN的两种版本（使用stop_gradient与不使用stop_gradient）对不起.....我不知道怎么将文件放到CSDN博客中下载，所以只能放这边了，没有资源分为0的选项.....

2018-03-17

引导策略搜索介绍 - GPS

简要介绍了论文《Guided Policy Search》，包括DDP，重要性采样等。简要介绍了论文《Guided Policy Search》，包括DDP，重要性采样等。简要介绍了论文《Guided Policy Search》，包括DDP，重要性采样等。

2017-11-24

Batch Normalization简介

对Batch Normalization论文进行了解读，用通俗的视角理解Batch Normalization。对Batch Normalization论文进行了解读，用通俗的视角理解Batch Normalization。对Batch Normalization论文进行了解读，用通俗的视角理解Batch Normalization。

2017-11-24

机器人中的强化学习技术

简要介绍了强化学习在机器人方向上的挑战以及可行性方法。简要介绍了强化学习在机器人方向上的挑战以及可行性方法。简要介绍了强化学习在机器人方向上的挑战以及可行性方法。

2017-11-24

贝叶斯线性回归 - Bayes

介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。介绍了极大似然、最大后验、贝叶斯估计以及贝叶斯线性回归方法。

2017-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人