2019年07月_CristianoC20

原创 Policy Gradient——一种不以loss来反向传播的策略梯度方法

目录文章目录目录1.前言2.核心算法3.Add a Baseline4.总结1.前言这次介绍的基于策略梯度的Policy Gradient的算法属实比之前的算法没那么好理解，笔者看完莫烦教程之后还是有许多细节没搞懂，又看了李宏毅教授的DRL Lecture才弄懂，希望能把他讲清楚。2.核心算法之前我们所学的DQN，Q-Learning都是通过计算动作得分来决策的，我们是在确定了价值函数...

2019-07-25 16:51:47 1199 2

原创 Prioritized Experience Replay (DQN)——让DQN变得更会学习

目录文章目录目录1.前言2.算法2.1 SumTree有效抽样2.2 Memory类2.3 更新方法3.对比结果1.前言这次我们还是使用MountainCar来进行实验，因为这次我们不需要重度改变它的reward了。所以只要是没有拿到小旗子reward=-1,拿到小旗子时，我们定义它获得了+10的reward。比起之前DQN中，这个reward定义更加准确。如果使用这种reward定义方式，...

2019-07-24 10:30:53 2179 2

原创 Double DQN——解决DQN中的过估计问题

文章目录1.前言2.算法2.1更新方法2.2 记录Q值2.3对比结果1.前言本篇教程是基于Deep Q network(DQN)的教程，缩减了在DQN方面的介绍，着重强调Double DQN和DQN的不同之处。接下来我们说说为什么会有Double DQN这种算法，所以我们从Double DQN相对于Natural DQN（传统DQN）的优势说起。一句话概括，DQN基于Q-Learning，...

2019-07-23 09:35:56 2654

原创周志华《机器学习》学习笔记(2)——性能度量

说是学习笔记二，其实上一次的介绍已经把部分第二章模型评估与选择的内容介绍了一些，这次主要是对第二章剩余知识的理解，包括：性能度量、比较检验和偏差和方差。在上一篇中，我们解决了评估学习器泛化性能的方法，即用测试集的“测试误差”作为“泛化误差“的近似，当我们划分好训练/测试集后，那如何计算”测试误差“呢？这就是性能度量，例如：均方差，错误率等，即”测试误差“的一个评价标准。有了评估方法和性能度量，就可...

2019-07-22 21:35:42 411

原创 Ubuntu下的录GIF神器——Peek

最近一直在找Ubuntu下面录GIF好用方便的软件一直没找到，很多都是要获取录屏四角的坐标，现在终于找到了，就是我们的录GIF神器——Peek。1 获取Peek的ppa源sudo add-apt-repository ppa:peek-developers/stable2 更新源sudo apt-get update3 安装Peeksudo apt-get install peek...

2019-07-22 10:28:05 1587

原创 OpenAI gym——一款开发和比较RL算法的工具包

文章目录一、前言二、安装三、CartPole例子主循环四、MountainCar例子一、前言手动编写环境是一件很耗时间的事情，所以如果可以直接使用比人编写好的环境，可以节约我们很多时间。OpenAI gym就是这样一个模块，他提供给我们很多优秀的模拟环境。我们的各种强化学习算法都能使用这些环境。之前的环境都是用tkinter来手动编写，或者想玩玩更厉害的，像OpenAI一样，使用pyglet模...

2019-07-22 10:02:36 1220 1

原创深度强化学习之DQN实战

今天我们会将我们上一篇文章讲解的DQN的理论进行实战，实战的背景目前仍然是探险者上天堂游戏，不过在下一次开始我们会使用OpenAI gym的环境库，玩任何我们想玩的游戏。算法公式看上去整个算法似乎很复杂，其实就是Q-Learning的框架加了三样东西experience replay（经验池）神经网络计算Q值暂时冻结q_target参数接下来我们就一步步把上篇文章学习到的理论实现...

2019-07-21 11:59:49 1378 1

原创深度强化学习之DQN-深度学习与强化学习的成功结合

目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。通...

2019-07-20 17:04:56 5161

原创 Sarsa(Lambda)-Sarsa的升级版

目录前言单步更新和回合更新算法公式探险者上天堂实战小结前言今天介绍的Sarsa(lambda)算法是Sarsa的改进版，二者的主要区别在于：Sarsa是每次获取到reward之后只更新到reward的前一步，而Sarsa(lambda)就是更新获取到reward的前lambda步。也就是说，Sarsa在没有获得reward之前，当前步的Q值其实是没有任何变化的，直到获得re...

2019-07-19 16:55:24 283

原创强化学习之Sarsa

在强化学习中，Sarsa和Q-Learning很类似，本次内容将会基于之前所讲的Q-Learning的内容。目录算法简介更新准则探险者上天堂实战算法简介Sarsa决策部分和Q-Learning一抹一样，都是采用Q表的方式进行决策，所以我们会在Q表中挑选values比较大的动作实施在环境中来换取奖赏。但是Sarsa的更新是不一样的更新准则和上次一样用小学生写作业为例子，我们会...

2019-07-18 20:56:39 371

原创强化学习之Q——learning

部分专有名词在上一篇文章有介绍，本文不作过多赘述。目录前言算法思想算法详解算法公式探险者寻宝藏实战（一维）前言我们做事情都会有自己的一个行为准则，比如小时候爸妈常说“不写完作业就不准看电视”。所以我们在写作业的状态（state）下，好的行为就是继续写作业，直到写完它，我们还可以得到奖励（reward），不好的行为就是没写完作业就跑去看电视了，被爸妈发现就会被惩罚，这种事情做的...

2019-07-17 16:20:06 1518

原创强化学习-让机器自学习

目录概念和监督学习，非监督学习的区别分类应用举例概念强化学习（Reinforcement Learning，简称RL）是机器学习的一个重要分支，前段时间人机大战的主角AlphaGo正是以强化学习为核心技术击败人类。在强化学习中，包含两种最基本的元素：状态与动作，在某个状态下执行某种动作，这便是一种策略，学习器要做的就是通过不断探索学习，从而获得一个好的策略。例如：在围棋中，一种落棋...

2019-07-16 10:59:07 1541

原创 394 encoded_string(字符串解码)

题目给定一个经过编码的字符串，返回它解码后的字符串。编码规则为: k[encoded_string]，表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，且输入的方括号总是符合格式要求的。此外，你可以认为原始数据不包含数字，所有的数字只表示重复的次数 k ，例如不会出现像 3a 或 2[4...

2019-07-15 23:09:22 915

原创 1-Two Sum

1 经典two_Sum问题问题：给定一个整数数组nums和一个目标值target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。示例：给定 nums = [2, 7, 11, 15], target = 9。因为 nums[0] + nums[1] = 2 + 7 = 9，所以返回 [0, 1]...

2019-07-14 21:17:25 66

原创 20-Valid Parentheses(有效的括号)

题目给定一个只包括 ‘(’，’)’，’{’，’}’，’[’，’]’ 的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: “()”输出: true示例 2:输入: “()[]{}”输出: true示例 3:输入: “(]”输出: false示例 4:输入: ...

2019-07-14 21:15:57 101

CristianoC