强化学习
Hhhy云帆
Keep simple things simple.
展开
-
强化学习的分类
on-policy: 必须本人在场, 并且一定是本人边玩边学习,例如Sarsa,Sarsa(lambda),TRPO。off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。 on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略原创 2017-12-01 17:55:57 · 2075 阅读 · 0 评论 -
Deep Reinforcement Learning Papers
1.DQNPlaying Atari with Deep Reinforcement Learning,V. Mnih et al., NIPS Workshop, 2013. https://www.cs.toronto.edu/~vmnih/docs/dqn.pdfHuman-level control through deep reinforcement learning, V. ...原创 2018-02-27 11:39:29 · 395 阅读 · 0 评论 -
深度强化学习简要概述(A brief Survey of deep reinforcement learning)
深度强化学习简要概述作者:Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharathpaper地址: A brief Survey of deep reinforcement learning摘要深度强化学习(DRL)将为人工智能领域带来革命性的变化,并代表着朝向构建对视觉世界...原创 2018-03-09 23:52:42 · 12279 阅读 · 1 评论 -
强化学习入门之基本介绍(一)
1. 什么是RL强化学习( RL )是机器学习的一个分支,agent通过与环境(env)交互来进行学习。这是一个以目标为导向的学习过程,agent不被告知要采取什么行为(action);相反,agent从其行为(action)的结果中学习。它正以各种各样的算法(DQN, A3C, DDPG, TRPO等)迅速发展,是目前人工智能( AI )最活跃的研究领域之一。agent可以探索(expl...原创 2018-07-14 16:07:57 · 1392 阅读 · 0 评论