强化学习从入门到放弃
mike112223
深度学习,计算机视觉
展开
-
强化学习入门
Agent一个可以做动作的代理。例如一个运输的无人机,或者超级马里奥游戏。算法就是代理。在生活中,代理就是你。ActionA是代理可能做的所有动作的集合。一个动作是一目了然的,但是需要注意的是,代理必须从这个集合里选择动作。在视频游戏里,这个list可能包括,左右移动,跳高跳低,蹲下或者静止不动。在股票市场,这个list可能是买,卖或持有。Discount factor衰减因子通过乘在未...翻译 2019-05-30 17:14:44 · 590 阅读 · 0 评论 -
Grasp2Vec
论文链接:https://arxiv.org/pdf/1811.06964.pdf论文题目:Grasp2Vec: Learning Object Representations from Self-Supervised GraspingGrasp2VecAbstract好的结构化的视觉表示能够帮助机器人快速的学习并且同时提高泛化能力。本文,我们研究对于机器人操作任务,如何在没有人工标注...翻译 2019-07-02 15:36:59 · 853 阅读 · 0 评论 -
Prioritized Experience Replay
论文链接:https://arxiv.org/pdf/1511.05952v2.pdf论文题目:PRIORITIZED EXPERIENCE REPLAYPrioritized Experience ReplayAbstract经验回放允许在线强化学习agent可以记住并且重复使用过去的经验。在之前的研究中,经验转变信息是从回放库里均匀采样的。然而,这种方法只是简单的以同样的频率来回放...翻译 2019-06-26 15:25:09 · 1297 阅读 · 0 评论 -
An introduction to Policy Gradients with Cartpole and Doom(四)
https://www.freecodecamp.org/news/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f/前两篇文章介绍了Q-learning和DQN,都是value-based的强化学习算法。为了决定该state选择哪个action,我们通过Q-value来完成决策。因此,在value-b...翻译 2019-06-18 14:53:19 · 271 阅读 · 0 评论 -
DQL: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets(三下)
https://www.freecodecamp.org/news/improvements-in-deep-q-learning-dueling-double-dqn-prioritized-experience-replay-and-fixed-58b130cc5682/DQL是2014年提出的。自那以后提出了很多改进。所以,今天我们来看看四种极大提升DQN agents的训练和结果:f...翻译 2019-06-17 18:15:17 · 2737 阅读 · 2 评论 -
Double DQN
论文链接:https://arxiv.org/pdf/1509.06461.pdf论文题目:Deep Reinforcement Learning with Double Q-learningDouble DQNAbstractQ-learning算法在特定情况下会存在过估计action values的情况。这种情况在实际应用中很普遍,而且会影响算法效果。之前并不知道原因以及能不能避免...翻译 2019-06-21 11:08:04 · 4155 阅读 · 0 评论 -
An introduction to Deep Q-Learning: let’s play Doom(三上)
https://www.freecodecamp.org/news/an-introduction-to-deep-q-learning-lets-play-doom-54d02d8017d8/上一章,我们学习了Q-Learning:一种RL算法,它会构建一个Q-table,然后agent在给定state的情况下使用Q-table来找到最优动作。但是我们会发现,如果我们有一个巨大的state空...翻译 2019-06-04 16:12:54 · 366 阅读 · 0 评论 -
Diving deeper into Reinforcement Learning with Q-Learning(二)
https://www.freecodecamp.org/news/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe/本章我们来学习Q-Learning。Q-Learning是一种value-based的强化学习方法。The big picture: the Knight and the Princes...翻译 2019-06-03 18:09:04 · 314 阅读 · 0 评论 -
Dueling Network
论文链接:https://arxiv.org/pdf/1511.06581.pdf论文题目:Dueling Network Architectures for Deep Reinforcement LearningDDQNAbstract本文提出一种新的网络结构用于model-free强化学习。我们的对抗网络分别表达了两个估计量:一个是状态价值函数,一个是依附于状态的动作优势函数。这个...翻译 2019-06-19 14:12:15 · 3870 阅读 · 0 评论 -
An introduction to Reinforcement Learning(一)
https://www.freecodecamp.org/news/an-introduction-to-reinforcement-learning-4339519de419/The Reinforcement Learning Process依然以马里奥作为例子。RL的流程如下:Agent从env中接收到state S0S0S0(在这个例子中我们接受到的就是超级马里奥(env)里的游...翻译 2019-06-03 15:37:26 · 1010 阅读 · 0 评论 -
DQN
论文链接:http://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf论文题目:Human-level control through deep reinforcement learningDQN为了让强化学习能够逼近复杂的现实世界,agents必须面临一个很难的问题:它们必须...翻译 2019-06-24 15:49:40 · 1447 阅读 · 0 评论