强化学习
桔梗的眼泪
立志算法的小猪
展开
-
DQN深强学习理解与代码实现
值函数近似 一个state action pair(s,a)(s,a)对应一个值函数Q(s,a)Q(s,a)。理论上对于任意的(s,a)(s,a)我们都可以由公式求出它的值函数,即用一个查询表lookup table来表示值函数。但是当state或action的个数过多时,分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数: ^Q(s,a,w)≈Qπ(s,a)Q^(s,a,w)...原创 2019-03-20 21:03:37 · 1921 阅读 · 0 评论 -
通俗理解强化学习Sarsa及其与Q_learning比较
Sarsa 上代码 from maze_env import Maze from RL_brain import SarsaTable def update(): for episode in range(100): # initial observation observation = env.reset() # RL choo...原创 2019-03-17 22:07:37 · 417 阅读 · 0 评论 -
强化学习基础技术理解(1)
马儿可夫属性 Markov Property 一个状态St是马尔可夫的,当且仅当: 强化学习个体的主要组成部分 强化学习中的个体可以由以下三个组成部分中的一个或多个组成: 策略 Policy 策略是决定个体行为的机制。是从状态到行为的一个映射,可以是确定性的,也可以是不确定性的。 价值函数 Value Function 是一个未来奖励的预测,用来评价当前状态的好坏程度。当面对两个不同的状态...原创 2019-03-18 21:12:54 · 427 阅读 · 0 评论