RLpython
JasonSparrow_1
这个作者很懒,什么都没留下…
展开
-
强化学习DQN
DQN 针对Q-learning做出改进。原Q-learning的算法不能支持较大的Q表的查询和遍历,而DQN则直接将状态和动作当作神经网络的输入值,在分析后得到Q值;或者只输入状态值,输出动作值,从而根据Q-learning的原则进行动作的选择。 针对第二种进行分析,如何更新NN中的参数 两个让DQN能够更好的学习的方法 Experience replay 随机抽取经历进行学习,从而打乱...原创 2019-02-28 14:47:25 · 645 阅读 · 0 评论 -
强化学习Q-learning
强化学习方法汇总 分类方法 一 不理解环境(Model-free RL): 没有任何先验感受,只是在不断地尝试中进行反馈理解 Q-learning Sarsa Policy Gradients 理解环境(Model-based RL): 建立模型模拟现实世界的反馈,从而对虚拟世界进行反馈 和Model-free的有相似之处,只不过是多了一个建模 根据想象来预判实际情况,从而根据最好的情况来选...原创 2019-02-19 16:02:06 · 289 阅读 · 0 评论 -
强化学习Sarsa
Sarsa 算法如下: 相比Q-learning而言,Sarsa会比较胆小,不希望自己掉进陷阱里,从而做出的决策都比较谨慎;而Q-learning会选择一条虽然比较危险但是可以成功的道路 # off-policy class QLearningTable(RL): def __init__(self, actions, learning_rate=0.01, reward_decay=0...原创 2019-02-20 10:03:51 · 225 阅读 · 0 评论 -
强化学习PolicyGradients
Policy Gradients 通过奖惩机制reward,来对选择进行反向传递,从而确定是否需要进行加大,或者减小选择的力度原创 2019-03-05 17:51:12 · 311 阅读 · 0 评论 -
强化学习ActorCritic
ActorCritic Actor负责进行动作的奖惩,而Critic将对奖惩进行评估,从而对下一步的奖惩做出影响 Actor的算法基础是PolicyGradients,Critic的算法基础是Q-learning Actor只能回合更新,而Critic部分可以单步更新 缺点就是空间的连续性,从而导致神经网络学不到东西,相关性比较强 为了解决这种问题,DeepMind将ActorCritic和DQN...原创 2019-03-08 15:10:02 · 465 阅读 · 0 评论