机器学习
文章平均质量分 91
Bourne_Boom
这个作者很懒,什么都没留下…
展开
-
Bourne强化学习笔记1:用简单例子说明Off-policy的思想与使用方法
本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转移概率,Monte Carlo Met...原创 2018-08-11 11:32:09 · 5340 阅读 · 0 评论 -
DL - mini batch
回顾之前我们讲到了一些在训练模型的时候用到的超参数,例如上一次说的L2 正则, 在过拟合的场景中增加L2的值有助于减小网络的复杂度。 还有诸如学习率, 在梯度下降中,每一次迭代的下降的步长是学习率乘以成本函数对w的导数。所以如果我们想让算法训练的快一点,调高学习率可以有效的减少迭代次数。 诸如此类的还有迭代次数,激活函数的选取等等。今天我们说一下mini batch什么是mini batc...转载 2018-11-23 09:00:48 · 184 阅读 · 0 评论 -
Bourne强化学习笔记3:在简单的Bandit问题中抓住强化学习的本质
强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所...原创 2018-08-25 22:31:49 · 1580 阅读 · 0 评论 -
Policy Gradient 学习笔记
1.策略梯度的优化:,最后这个Vt,有的书写的是Gt,还有就是每一个trajectory,可以用几次进行训练。有的地方说是每一个si,ai,R(i+1),都可以进行一次参数的更新,有的则说是整个trajectory只能用一次,R就是整个的Gt2.策略梯度定理是怎么推导成这个参数增量更新的式子?答:1.1。1在Sutton书里面...原创 2019-05-06 09:12:58 · 147 阅读 · 0 评论 -
一文看懂常用的梯度下降算法
概述梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。对于深度学习模型,基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理:目标函数关于参数的梯度将是目标函数上升最快的方向。对于最小化优化问题,只需要将参数沿着梯度相反的方向前进一个步长,就可以实现目标函数的下降。这个步长又称为学习速率。参数更新公式如下:...转载 2019-05-10 10:41:27 · 775 阅读 · 0 评论 -
Bourne强化学习笔记2:彻底搞清楚什么是Q-learning与Sarsa
为了理清强化学习中最经典、最基础的算法——Q-learning,根据ADEPT的学习规律(Analogy / Diagram / Example / Plain / Technical Definition),本文努力用直观理解、数学方法、图形表达、简单例子和文字解释来展现其精髓之处。区别于众多Q-learning讲解中的伪代码流程图,本文将提供可视化的算法流程图帮助大家学习、对比Q-learni...原创 2018-08-12 16:35:47 · 4839 阅读 · 1 评论 -
Udacity DNN
一、Linear Boundary1.ELement wise operation 2. Perceptron Trick (10)How to move the line to be close to a certain point.My code vs Solution3. Why disrete activation function ( e.g. St...原创 2019-02-11 17:21:39 · 142 阅读 · 0 评论