强化学习薄荷糖
文章平均质量分 61
分享强化学习基础算法
贰锤
这个作者很懒,什么都没留下…
展开
-
【强化学习】DRQN详解分析
本节内容见https://zhuanlan.zhihu.com/p/54898904原创 2019-01-15 11:47:53 · 5871 阅读 · 0 评论 -
【强化学习】确定性策略强化学习-DPG&DDPG算法推导及分析
一、DGP推导本篇介绍确定性策略梯度算法,该算法主要用于off-policy(on-policy也能用)。在DQN等值函数估计算法中,最终策略的形式是需要对动作状态值函数取极大a=argmaxa′Q(s,a′)a={\rm argmax}_{a'}Q(s,a')a=argmaxa′Q(s,a′),这种方法只能用在有限的离散动作空间中,无法应用在较大离散空间或...原创 2018-12-07 17:32:50 · 19530 阅读 · 2 评论 -
【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因
由于Q-learning采用的是off-policy,如下图所示但是为什么不需要重要性采样。其实从上图算法中可以看到,动作状态值函数是采用1-step更新的,每一步更新的动作状态值函数的R都是执行本次A得到的,而我们更新的动作状态值函数就是本次执行的动作A的Q(S,A)Q(S,A)Q(S,A)。就算A不是通过greedygreedygreedy策略选择的(是通过ϵ−greedy\epsilon...原创 2018-12-07 17:21:57 · 4671 阅读 · 0 评论 -
【强化学习】值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析
一、值函数估计方法引入在值函数估计方法中,我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为L=12∑a∑s(Q(s,a)−Q(s,a;θ))2L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2L=21a∑s∑(Q(s,a)−Q(s,a;θ))2其中Q(s,a)Q(s,a)Q(s,a)为真实的累积回报...原创 2018-12-05 10:41:35 · 14987 阅读 · 0 评论 -
【强化学习】随机策略梯度算法(stochastic-policy-gradient)
策略搜索方法相对于值函数法有如下优缺点优点:直接策略搜索方法是对策略π\piπ进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。利用值函数方法求解最优策略时,策略改进需要求解argmaxaQθ(s,a)argmax_a Q_\theta(s,a)argmaxaQθ(s,a),当要解决的问题动作空间很大或者动作为连续集时,该式无法有效求解。直接策...原创 2018-12-04 17:40:43 · 9815 阅读 · 2 评论 -
共轭梯度法详细推导分析
共轭梯度法是一种经典的优化算法。算法求解速度较快,虽然比梯度下降法复杂,但是比二阶方法简单。一、引入1. 优化模型建立假定待优化的问题如下所示:minxf(x)=12xTAx−bTx\min_{x} f(x)=\frac{1}{2}x^TAx - b^Txxminf(x)=21xTAx−bTx其中xxx为待优化变量,AAA为半正定矩阵(在线性代数中,正定矩阵为对称矩阵),bbb...原创 2018-11-29 21:10:57 · 42295 阅读 · 20 评论 -
强化学习相关问题
一次看到苏克在知乎写的强化学习问题,自己顺便学习了一下,可能总结有不对的地方,希望朋友们指出。1. 强化学习与监督学习的区别强化学习就是通过不断与环境交互,利用环境给出的奖惩来不断的改进策略(即在什么状态下采取什么动作),以求获得最大的累积奖惩。主要区别:监督学习的训练样本是有标签的,强化学习的训练是没有标签的,是通过不断与环境交互获得奖惩来学习的。监督学习的过程是静态的,强化学习的过...原创 2018-10-23 21:32:37 · 859 阅读 · 0 评论 -
【强化学习】随机策略梯度强化学习-TRPO置信域策略优化推导分析《Trust Region Policy Optimization》
本文参照此文做了学习整理。根据策略梯度方法,很难选择步长使参数更新向着策略变好的方向变化,如果步长不合适,可能导致越学越差致使系统崩溃。如何选择一个合适的步长,或者说,如何找到新的策略使新的回报函数的值单调递增,或单调不减。这是TRPO解决的问题。强化学习的回报函数定义为:η(π~)=Eπ~[∑t=0∞γt(r(st))]\eta(\tilde{\pi} )=E_{\tilde{\pi}...原创 2018-10-14 09:46:58 · 2165 阅读 · 0 评论 -
【强化学习】GAIL生成对抗模仿学习详解《Generative adversarial imitation learning》
通过深度强化学习,我们能够让机器人针对一个任务实现从0到1的学习,但是需要我们定义出reward函数,在很多复杂任务,例如无人驾驶中,很难根据状态特征来建立一个科学合理的reward。人类学习新东西有一个重要的方法就是模仿学习,通过观察别人的动作来模仿学习,不需要知道任务的reward函数。模仿学习就是希望机器能够通过观察模仿专家的行为来进行学习。OpenAI,DeepMind,Google...原创 2018-09-27 10:26:43 · 33930 阅读 · 10 评论 -
深度学习batchsize,iteration,epoch的关系
当时看代码接触到这三个量,简直懵逼。自己理了理思路总结如下。epoch:一个epoch表示所有训练样本运算学习一遍。iteration/step:表示每运行一个iteration/step,更新一次参数权重,即进行一次学习,每一次更新参数需要batch size个样本进行运算学习,根据运算结果调整更新一次参数。batch size:一次参数更新运算所需的样本数量,深度学习每一次参数更新并不是一个样本原创 2017-07-20 17:21:57 · 9048 阅读 · 2 评论 -
【强化学习】Deterministic Policy Gradient跟Stochastic Policy Gradient区别
Deterministic Policy Gradient(DPG) Stochastic Policy Gradient(SPG) DPG是SPG的概率分布方差趋近于0的极限状态。 policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。SPG policy是一个从state到action概率分布的映射。,因此performance objective定义原创 2017-07-13 16:13:42 · 3421 阅读 · 0 评论 -
【强化学习】RL各种算法流程伪代码
policy iteration value iteration 注:policy iteration使用bellman方程来更新value,最后收敛的value 即 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛原创 2017-07-07 16:00:01 · 6719 阅读 · 0 评论 -
强化学习Sarsa,Q-learning的收敛性最优性区别(on-policy跟off-policy的区别)
on-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)相同。典型为SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。该方法会遭遇探索-利用的矛盾,光利用目前已知的最优选择,可能学不到最原创 2017-07-10 21:46:12 · 14389 阅读 · 1 评论 -
【强化学习】Actor-Critic公式推导分析
注:actor以及critic可以分别看作是policy以及value function的同义词。 Actor-Critic算法是目前一个非常流行常用的强化学习算法,广泛应用于机器人,能源,经济等领域。通过low-variance(低方差)以及policy gradient(策略梯度)在线搜索最优策略,可以处理连续的state(状态)以及连续的action(行为)。 强化学习的方法可以分为以下三原创 2017-07-06 21:09:11 · 17952 阅读 · 1 评论 -
【强化学习】各种算法分析及Eligibility Trace教程
Monte Carlo算法需要运行完整的episode,利用所有观察到的真是的reward(奖励值)来更新算法。Temporal Difference(TD)算法仅当前时刻采样的reward(奖励值)进行value function的估计。一个折中的方法就是利用n步的reward(奖励进行估计)。 TD(λ)算法:定义0<λ<1,使第k步的奖励乘以系数。 实际中使用的TD(λ)算法称为原创 2017-07-07 11:45:40 · 5345 阅读 · 0 评论