⽆数学者们通过⼏⼗年不断地努⼒和探索,提出了⼀套可以解决⼤部分强化学习问题的框架,这个框架就是⻢尔科夫决策过程,简称 MDP
- 马尔科夫性
系统的下一个状态s‘仅与当前状态s有关,与以前的状态无关 - 马尔科夫过程
是一个状态和概率组成的元组(S,P),S是有限状态集合,P是状态转移概率(矩阵),不存在东顾总和奖励。
- 马尔科夫决策过程
马尔科夫过程将动作(策略)和回报考虑在内成为马尔科夫决策过程,由元组(S,A,P,R,r)描述,S为有限的状态集,A为有限的动作集,P为状态转移概率,R为回报函数,r为折扣因子(用来计算累计回报)
强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略π(状态到动作的映射),指给定状态s时,动作集上的一个分布
给定策略π时,可以计算累计回报
强化学习的策略往往是随机策略,假设初始状态s1出发,有很多中序列可能,所以累积回报也是随机的
1)状态值函数
状态值函数和策略π时相对应的,策略π决定了累积回报G的状态分布。当智能体采⽤策略π时,累积回报服从⼀个分布,累积回报在状态s处的期望值定义为状态-值函数
贝尔曼方程为
B为值函数的计算公式
C为状态行为值函数的计算公式
联合得到最终的值函数求解公式
最优状态值函数为
2)状态-行为值函数为
贝尔曼方程为
同理得到状态行为值函数
最优状态-行为值函数为
计算状态值函数的⽬的是为了构建学习算法从数据中得到最优策略
每个策略对应着⼀个状态值函数,最优策略⾃然对应着最优状态值函数
已知最优状态行为值函数,最优策略也可以直接最大化状态行为值求得