强化学习蘑菇书学习笔记02

第二章

keywords

  • 马尔可夫性质(Markov property,MP): 如果某一个过程未来的状态与过去的状态无关,只由现在的状态决定,那么其具有马尔可夫性质。换句话说,一个状态的下一个状态只取决于它的当前状态,而与 它当前状态之前的状态都没有关系。
  • 马尔可夫链(Markov chain): 概率论和数理统计中具有马尔可夫性质且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。
  • 状态转移矩阵(state transition matrix): 状态转移矩阵类似于条件概率(conditional probability),其表示当智能体到达某状态后,到达其他所有状态的概率。矩阵的每一行描述的是从某节点到达所有其他节点的概率。
  • 马尔可夫奖励过程(Markov reward process,MRP):本质是马尔可夫链加上一个奖励函数。在马尔
    可夫奖励过程中,状态转移矩阵和它的状态都与马尔可夫链的一样,只多了一个奖励函数。奖励函数是一个期望,即在某一个状态可以获得多大的奖励。
  • 范围(horizon): 定义了同一个回合(episode)或者一个完整轨迹的长度,它是由有限个步数决定的。
  • 回报(return): 把奖励进行折扣(discounted),然后获得的对应的奖励。
  • 贝尔曼方程(Bellman equation): 其定义了当前状态与未来状态的迭代关系,表示当前状态的价值函
    数可以通过下个状态的价值函数来计算。贝尔曼方程因其提出者、动态规划创始人理查德 · 贝尔曼(Richard Bellman)而得名,同时也被叫作“动态规划方程”。贝尔曼方程即 V (s) = R(s) + γ Ps′∈SP(s′|s)V (s′) ,
    特别地,其矩阵形式为 V = R + γPV。
  • 蒙特卡洛算法(Monte Carlo algorithm,MC algorithm):可用来计算价值函数的值。使用本节中小船的例子,当得到一个马尔可夫奖励过程后,我们可以从某一个状态开始,把小船放到水中,让它随波流动,这样就会产生一个轨迹,从而得到一个折扣后的奖励 g 。当积累该奖励到一定数量后,用它直接除以轨迹数量,就会得到其价值函数的值。
  • 动态规划算法(dynamic programming,DP):其可用来计算价值函数的值。通过一直迭代对应的贝尔曼方程,最后使其收敛。当最后更新的状态与上一个状态差距不大的时候,动态规划算法的更新就可以停止。
  • Q 函数(Q-function):其定义的是某一个状态和某一个动作所对应的有可能得到的回报的期望。
  • 马尔可夫决策过程中的预测问题:即策略评估问题,给定一个马尔可夫决策过程以及一个策略 π ,计算它的策略函数,即每个状态的价值函数值是多少。其可以通过动态规划算法解决。
  • 马尔可夫决策过程中的控制问题:即寻找一个最佳策略,其输入是马尔可夫决策过程,输出是最佳价值函数(optimal value function)以及最佳策略(optimal policy)。其可以通过动态规划算法解决。
  • 最佳价值函数:搜索一种策略 π ,使每个状态的价值最大,V∗就是到达每一个状态的极大值。在极
    大值中,我们得到的策略是最佳策略。最佳策略使得每个状态的价值函数都取得最大值。所以当我们说某
    一个马尔可夫决策过程的环境可解时,其实就是我们可以得到一个最佳价值函数。

第三章

keywords

  • 概率函数和奖励函数:概率函数定量地表达状态转移的概率,其可以表现环境的随机性。但是实际上,我们经常处于一个未知的环境中,即概率函数和奖励函数是未知的。
  • Q 表格:其表示形式是表格,其中表格的横轴为动作(智能体的动作),纵轴为环境的状态,每一个坐标点对应某时刻智能体和环境的状态,并通过对应的奖励反馈选择被执行的动作。一般情况下,Q 表格是一个已经训练好的表格,不过我们也可以每执行一步,就对 Q 表格进行更新,然后用下一个状态的 Q值来更新当前状态的 Q 值(即时序差分方法)。
  • 时序差分(temporal difference,TD)方法:一种 Q 函数(Q 值)的更新方式,流程是使用下一步的Q 值 Q(st+1, at+1) 来更新当前步的 Q 值 Q(st, at)。完整的计算公式如下:Q(st, at) ← Q(st, at) + α[rt+1+γQ(st+1, at+1) − Q(st, at)] 。
  • Sarsa 算法:一种更新前一时刻状态的单步更新的强化学习算法,也是一种同策略学习算法。该算法
    由于每次更新 Q 函数时需要知道前一步的状态、动作、奖励以及当前时刻的状态、将要执行的动作,即st、at、rt+1、st+1、at+1这几个值,因此被称为 Sarsa 算法。智能体每进行一次循环,都会用 st、at、rt+1、st+1、at+1对前一步的 Q 值(函数)进行一次更新。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值