RL
文章平均质量分 97
lovecencen1893
我爱学习,我爱我的老婆
展开
-
Q-Learning demo
Q-Learning学习莫烦python伪代码1. 随机初始化Q(s, a)#可以为全零阵2. repeat(for each episode):3. 初始化s(随机)4. repeat(for each step of episode):5. 选择一个a(有策略,比如epsilon greedy策略)6. 根据s, a,得...原创 2018-05-07 11:26:05 · 494 阅读 · 0 评论 -
基于q_learning的flappy bird AI
基于q_learning的flappy bird AI思路来自于这篇文章:机器学习玩转Flappy Bird全书:六大“流派”从原理到代码有两种思路,一种是单步更新q values,一种是全局更新q values。单步更新就是最基础的q learning算法,在agent每产生一个action之后,根据state、action以及next state更新。全局更新是Flappy Bird ...原创 2018-05-15 21:57:17 · 1884 阅读 · 1 评论 -
DQN(1)
DQN(1)DQN(1)资料为什么需要DQN伪代码需要复现莫烦PYTHON的核心代码效果下一步任务资料莫烦PYTHON DeepMind 《强化学习精要》 Deep Reinforcement Learning 基础知识(DQN方面) 用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird Human-le...原创 2018-05-28 10:34:21 · 1086 阅读 · 1 评论