![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
朱小丰
762159551@qq.com有问题可邮件
展开
-
笔记:强化学习入门:Q Learning+ 补充:代码部分
1强化学习是机器学习的一个重要的分支,它主要研究如何在环境中做出合适的动作以最大化某些奖励理解:在所处环境下,怎样达到目标的最优方法或者步骤2强化学习中的几个核心概念智能体(Agent) 环境(Environment) 动作(Action) 奖励(Reward)智能体存在于环境中,并会在环境中作出一些动作,这些动作会使得智能体获得一些奖励,这些奖励有正有负。强化学习的目标是...原创 2019-04-27 08:24:00 · 506 阅读 · 1 评论 -
笔记:强化学习入门:SARSA 算法
SARSA 算法和 Q Learning算法是同一种强化学习基本算法。但是SARSA 算法采取了和Q Learning 不同的迭代更新策略。1 SARSA 算法SARSA 算法的更新步骤为:记录当前的state 执行上一步选定的action 得到奖励reward 和 新的状态 new_state 在new_state下 根据当前的Q函数 ,选定的要执行的不走new_actio...原创 2019-04-28 08:57:56 · 1394 阅读 · 0 评论 -
笔记: 深度强化学习 Deep Q Learning
最近太忙了,之后会把代码部分补上谢谢大家看我博客Deep Q Network 简称 DQNDQN论文实际解决的问题是:用强化学习来玩雅达利(Atari)游戏机上的像素游戏。简单的说就说像素版的打砖块游戏。如图:DQN要解决的问题是:如何从原始的游戏画面出发,通过强化学习自动学出会玩游戏的方法之前的Q Learning 算法处理的问题都是相对于简单的 状态和action都...原创 2019-04-28 20:58:47 · 855 阅读 · 0 评论 -
笔记:强化学习 策略梯度算法
Q Learning ,SARSA,DQN 本质上都是学习一个价值函数 Q函数。在环境决策时 需要首先确定当前的状态,然后根据Q(s,a)选择一个价值较高的动作去执行策略梯度算法策略梯度算法和他们都不同。他不再去学习价值函数 Q函数 ,而是直接通过模型 比如神经网络 输入需要采取的动作以Cartpole游戏为例,平台上面有一个直立的杆,我们不断左右移动平台,每一个时刻都可以获得...原创 2019-04-29 08:59:15 · 1059 阅读 · 0 评论