2.1 A k-armed Bandit Problem

考虑如下问题:有k个不同的选择(或者说动作)摆在你的面前,你需要不断重复地选择其中一个,每次你选择其中一个之后,会根据你选择的动作给你一个数值奖励,这个数值奖励符合正态分布。你的目标是在经过一定的次数后,比如1000次后,获得的期望奖励之和最大。 这就是原始形式的K摇臂游戏机问题,以模拟一种投币...

2019-08-29 18:03:26

阅读数 40

评论数 0

Powell算法总结

这是一种最优化算法,可以用于求解多元方程式的解。 1. 预备知识 对于任意一个n维非线性函数,若其至少二阶连续可微,则可将其在某一点处,进行泰勒展开,保留其二阶项,写成: 略去二次以上高阶项,并将其写成如下形式: 若取,则上式变为如下一般形式: 注意,其中( 表示 ,其余类似...

2019-07-08 19:05:24

阅读数 47

评论数 0

TensorFlow入门(一)

1、为什么要用TensorFlow? TensorFlow的作用是让你从诸如“如何读入一堆图片”“如何处理图像的灰度值”“如何归一化向量”这样的细节问题中解脱出来,让你不用担心自己的模型中有各种各样的bug;因此,你可以更关注于建立一个优秀的模型,提升模型的性能,使它的精确度更高,泛化性更好等等...

2019-06-04 17:35:40

阅读数 29

评论数 0

深度学习入门笔记 Day10/15 与学习相关的技巧(二)

一、如何使用Weight Decay权值衰减或者Dropout技术缓解过拟合? 过拟合现象是指在训练集中表现优秀,但是在其他未知的数据集上表现很差的现象。 由于很多过拟合原本就是因为权重参数取值过大才发生的。Weight Decay权值衰减法是通过最小化权值的二范数,使得所有权值都为最小。 ...

2019-05-25 21:52:09

阅读数 81

评论数 0

深度学习入门笔记 Day9/15 与学习相关的技巧(一)

一、为什么SGD不够完美 1. 在输入参数的系数相差较为巨大的时候,比如:的时候,由于参数变化对于y的影响比参数变化要小得多,那么在更新参数的时候,对于x1的更新就很不明显,虽然上式的最小值明显在处,但是如果选择初始值可能最终收敛到的地方是。 2. 学习率对SGD影响也很大,如果选择得过大,可...

2019-05-24 16:23:50

阅读数 30

评论数 0

深度学习入门笔记 Day8/15 误差反向传播法(二)

一、如何实现加法层和乘法层 用代码实现昨天的苹果、橘子问题。 这里的layer应该理解为节点,MulLayer是乘法节点的实现,AddLayer是加法节点的实现。 对于每个节点声明一个类变量 mul_apple_layer = MulLayer() #节点1,乘法节点,苹果单价*苹...

2019-05-23 18:31:44

阅读数 36

评论数 0

深度学习入门笔记 Day7/15 误差反向传播(一)

辛苦码了好多字,都不见了,破网速。。。不干了,撂挑子了。。。 一、什么是计算图? 将计算过程用图形表示出来。 二、什么是反向传播的链式法则? 复合函数求导可以层层求导。 三、如何实现乘法和加法的反向传播? ...

2019-05-22 16:05:54

阅读数 14

评论数 0

深度学习入门笔记 Day6/15 神经网络(四)

一、什么是数值微分 数值微分就是用求导数近似值的方法。 取或其他较小的数,则函数在x点处的导数等于: 用python等计算机语言实现时,要注意,并不是越小越好,因为计算机的存储空间有限,32位单精度浮点数可表达的数字范围在-3.40E+38 ~ +3.40E+38之间。 例子:,求其在...

2019-05-21 16:07:23

阅读数 13

评论数 0

深度学习入门笔记 Day5/15 神经网络(三)

一、可否从数据中自动学习神经网络的权重参数? 当然可以,不然学深度学习干啥!神经网络的特征就是可以从数据中学习。所谓“从数据中学习”,是指可以由数据自动决定权重参数的值。 深度学习、机器学习的区别:深度学习的优势在于不需要人为挑选特征值。 https://blog.csdn.net/eowy...

2019-05-20 16:48:01

阅读数 9

评论数 0

深度学习入门笔记 Day4/15 神经网络(二)

一、如何使用Numpy数组实现一个权重既定的三层神经网络的前向传播? import numpy as np def identity_function(x): return x def init_network(): network ={} network[...

2019-05-19 20:53:52

阅读数 16

评论数 0

深度学习入门笔记 Day3/15 神经网络(一)

一、什么是神经网络,它和多层感知机的区别是什么? 神经网络和多层感知机的结构是类似的,区别有两点: 1. 多层感知机的偏置b在神经网络结构里变成了一个常数输入1的权重。 2. 感知机的激活函数是阶跃函数(在0处不连续),神经网络则使用的是其他连续函数,如sigmoid,ReLU等。 二...

2019-05-18 16:31:15

阅读数 18

评论数 0

深度学习入门笔记 Day2/15 感知机

一、感知机是什么? 感知机是一种算法,把多个输入信号按一定的逻辑关系进行输出(一个输出),单层感知机公式如下: 通过调整权重和阈值,可以用来实现各种逻辑电路。 二、如何用单层感知机实现各种逻辑电路? 比如或门:设置权重和阈值 w1=0.5,w2=0.5,theta=0.3即可,这个值不...

2019-05-17 12:35:28

阅读数 30

评论数 0

深度学习入门笔记 Day1/15

第一章 Python入门 Day1/15 1.2 Python的安装 另外安装了一个Python的IDE:pyCharm 经常使用的两个外部库: a. Numpy:用于数值运算 import numpy as np(可以改名) b. Matplotlib:用于绘图 impor...

2019-05-16 11:49:09

阅读数 24

评论数 0

2.4 incremental implementation 增量实现

目前我们所讨论的动作-值评估方法都是采样平均法。现在我们来讨论一个问题,如何在计算机上以一种高效的方式来计算这个奖励的采样平均值,在存储容量固定和连续的分布计算的要求下。 为了简化定义,我们集中于一个动作上。令表示第i次选择后的这个动作的奖励,令表示这个动作被采样了n-1次后这个动作的值,这里我...

2019-04-30 18:01:22

阅读数 31

评论数 0

2.3 The 10-armed Testbed 10摇臂老虎机试验台

为了粗略获得贪心算法和贪心算法的相对有效性,我们通过一系列的数值测试来比较两者的优劣。 本实验台包含2000个随机生成的k摇臂老虎机问题,其中k=10。如图2.1所示是其中之一,每个k摇臂问题生成的10个动作的值,, a = 1,...,10, 是从一个均值为0,方差为1的正态/高斯分布中选取出...

2019-04-30 14:50:18

阅读数 22

评论数 0

2.2 Action-value Method 动作-值方法

我们先来了解一些简单的用于估计动作值,和如何用估计值来选择动作的方法。 估计动作值:采样平均法。 回顾一下:值是什么?一个动作的真实值是当这个动作被选取了,我们获得的奖励的平均值。那么自然而然,一种估计动作值的方法就是用当前获得的奖励的平均值来表示真实值: , 其中表示采取了a动作则等于1...

2019-04-29 18:48:36

阅读数 49

评论数 0

2 强化学习——Multi-armed Bandits

The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the...

2019-04-29 14:51:07

阅读数 13

评论数 0

multi-arm-bandits问题python代码

假设有k=10个摇臂的老虎机,其奖励分布满足高斯正态分布,每个摇臂对应的正态分布的均值与方差分别为: #the real mean value of each ation's reward qa_star = np.array([0.2,-0.3,1.5,0.5,1.2,-1.6,-0.2,-...

2019-03-08 17:00:03

阅读数 42

评论数 0

我的第一个增强学习代码(敲弱智的)

#假设一个具有9个元素的一维数组,nimo位于第6位(索引从0开始) #下面用增强学习的思想来让agent找到nimo,并输出是第几步找到的nimo,以及获得的奖励 #本例不涉及到对策略的优化,只是采取keci-贪心算法达到搜寻目的,并不是完整的增强学习算法 import numpy as np...

2019-03-07 19:06:35

阅读数 30

评论数 0

Markov Chain 马尔可夫链

1. 马尔可夫性质 对于任意 ,任意,任意状态 有 比较直观的定义是: 令: 则马尔可夫性质为: 已知到现在为止的所有信息来预测将来,则只与现在状态有关,与过去所有状态都没有关系。 2. 马尔可夫链 如果是状态离散的随机过程,并且具有马尔可夫性质,则称此随机过程为马尔可...

2019-02-22 17:39:10

阅读数 128

评论数 0

提示
确定要删除当前文章?
取消 删除