[Reinforcement Learning] 马尔可夫决策过程
阅读目录
情节性任务 vs. 连续任务
- 情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作为有限步骤的任务。
- 连续任务(Continuing Tasks),所有的任务不能分解,可以看作为无限步骤任务
马尔可夫性
引用维基百科对马尔可夫性的定义:
马尔可夫性:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态
用数学形式表示如下:
马尔可夫过程
马尔可夫过程即为具有马尔可夫性的过程,即过程的条件概率仅仅与系统的当前状态相关,而与它的过去历史或未来状态都是独立、不相关的。
马尔可夫奖赏过程
马尔可夫奖赏过程(Markov Reward Process,MRP)是带有奖赏值的马尔可夫过程,其可以用一个四元组表示 <S,P,R,γ>。
- S 为有限的状态集合;
- **P 为状态转移矩阵,Pss′=P[St+1=s′|St=s];
- R 是奖赏函数;
- γ 为折扣因子(discount factor),其中 γ∈[0,1]
奖赏函数
在 t 时刻的奖赏值 Gt:
Why Discount
关于Return的计算为什么需要 γγ 折扣系数。David Silver 给出了下面几条的解释:
- 数学表达的方便
- 避免陷入无限循环
- 远期利益具有一定的不确定性
- 在金融学上,立即的回报相对于延迟的回报能够获得更多的利益
- 符合人类更看重眼前利益的特点
价值函数
状态 ss 的长期价值函数表示为:
马尔可夫决策过程
马尔可夫决策过程(Markov Decision Process,MDP)是带有决策的MRP,其可以由一个五元组构成 <S,A,P,R,γ>。
策略
策略(Policy)是给定状态下的动作概率分布,即:
π(a|s)=P[At=a|St=a]
状态价值函数 & 最优状态价值函数
给定策略 π 下状态 s 的状态价值函数(State-Value Function)vπ(s)