![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 91
geter_CS
你要把时间用在美好的事情上,不要总是在不值得的事情上浪费。停止自我否定,多去肯定自己;停止反复懊悔,学会坦然放下;停止急于求成,耐心等待自律带来的变化......
展开
-
SeqGAN论文笔记
原始的GAN提出用于图像生成,其在实数值生成上可以很好的work,但是当目标是生成序列化离散token时就会有限制,主要原因文中说了两点:这主要是因为离散输出的生成模型使得很难将梯度更新从判别模型传递到生成模型。根据Ian Goodfelllow说的,GANs是通过训练生成器来合成数据,然后在合成数据上使用判别器,判别器的输出梯度将后告诉生成器,如何略微改变合成数据使其更加真实。一般来说,只有...原创 2019-05-13 16:49:46 · 1575 阅读 · 0 评论 -
Deep Attention Recurrent Q-network(DRAQN)论文笔记
这篇文章看题目就知道在DQN的基础上加上LSTM变为DRQN,再加上Attention机制就变为DRAQN。这篇文章扩展了两种attention一种是“soft”一种是“hard”。内置注意机制允许通过突出代理在决策时关注的游戏屏幕区域来直接在线监控训练过程。...原创 2019-01-03 15:09:23 · 1721 阅读 · 1 评论 -
GYM的Robotics怎么玩
这是GYM上的一类机器人手臂游戏,依赖于MuJoco。包括有FetchReach、FetchSlide、FetchPush、FetchPickAndPlace、HandReach、HandManipulateBlock、HandMainpulateEgg、HandMainpulatePen等八个环境。八个环境中都有目标(goal)概念,比如FetchPush的描述就是:推动一个盒子直到它到达目标...原创 2019-01-07 15:16:02 · 4075 阅读 · 9 评论 -
Q学习和深度Q学习(DQN)论文笔记
Q学习(Q-learning)强化学习中有个很重要的递归关系,贝尔曼方程(Bellman Equation):Qπ(st,at)=E[r+γE[Qπ(st+1,at+1)]]Q^\pi(s_t,a_t)=E[r+\gamma E[Q^\pi(s_{t+1},a_{t+1})]]Qπ(st,at)=E[r+γE[Qπ(st+1,at+1)]]这个公式实际上也揭露了状态的马尔科夫性质,也...原创 2019-01-02 15:20:46 · 20825 阅读 · 0 评论 -
Deep Recurrent Q-learing for POMDP论文笔记
这篇文章讲DQN主要有两个缺点:记忆限制,以及每一次决策都需要完整的游戏画面。这篇文章将DQN的第一个全连接层换成了LSTM,以求解决这些问题。这是因为LSTM具有记忆单元,可以记住以往历史信息。虽然这DRQN每个时间步只能看到一帧,但是它可以整合时间信息,并且复现DQN的效果。此外,在接受部分观察进行训练并通过逐步更完整的观察进行评估时,DRQN的表现与观测信息成一定的函数关系。反过来,若是...原创 2019-01-02 11:08:27 · 3045 阅读 · 0 评论 -
凸集、凸函数与KL散度
凸集的定义是:集合C内任意两点间的线段任然包含在集合中,则此集合称为凸集。形式化的方法描述:以任意一点作为原点,对于集合内任意两点x1⃗\vec{x_1}x1,x2⃗\vec{x_2}x2,和任意一个处于[0,1]的实数θ\thetaθ,都有:θx1⃗+(1−θ)x2⃗∈C\theta \vec{x_1}+(1-\theta)\vec{x_2}\in Cθx1+(1−θ)x2∈C...原创 2018-12-18 19:12:28 · 1906 阅读 · 1 评论 -
重要性采样(importance sampling)
重要性采样是统计学习中一种常用的方法。在强化学习中通常和蒙特卡洛方法结合使用。重要性采样是,使用另外一种分布来逼近所求分布一种方法。具体形式是这样的:假设我们在想要求取目标分布PPP下函数f(x)f(x)f(x)的分布,如果可以对PPP采样,采用蒙特卡洛方法,我们可以有如下计算:Ex∼P[f(x)]=∫xP(x)f(x)dx≈1N∑xi∼P,i=1Nf(xi)E_{x\sim P}[f(x)...原创 2018-12-18 16:21:08 · 13271 阅读 · 10 评论 -
梯度下降法与最速下降(凸优化方法)
梯度下降法:假设目标优化形式为:argminxf(x)argmin_xf(x)argminxf(x)即我们要求取函数f(x)f(x)f(x)的最小值,那么根据梯度下降法,可以如下算法:while∣∣▽f(xk)∣∣≥ϵwhile||\bigtriangledown f(x_k)||\geq\epsilonwhile∣∣▽f(xk)∣∣≥ϵ dk=−▽f(xk)d_k=-\bigt...原创 2018-12-20 11:17:55 · 4547 阅读 · 0 评论 -
共轭梯度(凸优化方法)
牛顿法拟牛顿法共轭梯度法原创 2018-12-21 17:25:19 · 1680 阅读 · 0 评论 -
Soft Actor-Critic 论文笔记
无模型深度强化学习算法(Model-free DRL)有两个主要缺点:1.非常高的样本复杂性(需要与环境进行大量交互产生大量样本)2.脆弱的收敛性(它的收敛性受超参数影响严重:学习率,探索常量等等)这两个缺点限制了其应用于复杂的真实世界任务。有些同策略算法(On-policy)样本效率低。比如TRPO,A3C,PPO等是同策略,他们每一步梯度计算都需要新的样本收集。而异策略算法(Off-p......原创 2019-06-02 21:36:53 · 9879 阅读 · 0 评论