马尔可夫过程MP:(S,P)
马尔可夫奖励过程MRP:(S,P,R,γ)
马尔可夫决策过程MDP:(S,A,P,R,γ)
马尔可夫过程 MP
马尔科夫性:下一时刻状态只与当前时刻状态有关,与之前状态无关。
状态转移矩阵:定义了状态 到其后所有后继状态 的转移概率。
状态转移概率:
矩阵中每行元素总和为1。
马尔可夫过程可分为三类:
1)时间、状态都离散——马尔科夫链
2)时间连续、状态离散——连续时间的马尔科夫链
3)时间、状态都连续——马尔可夫过程
马尔科夫链由(S,P)构成,S为有限状态的集合,P为状态转移矩阵。
幕:马尔科夫链的子序列,从初始状态到终止状态。
马尔可夫奖励过程 MRP
由(S,P,R,γ)构成,
是奖励函数,
γ是折扣因子,
回报:在一个马尔可夫过程中,从 t 时刻状态 开始,直到终止状态,所有奖励的衰减之和 称为回报。
(当前价值)
时,表示只考虑当前收益。
价值函数:一个状态的期望回报。
(长远价值)
贝尔曼方程:(用于求解 )
矩阵形式:
对于大型MRP,有很多迭代方法:动态规划、蒙特卡洛评估、时序差分学习等。
马尔可夫决策过程 MDP
由(S,A,P,R,γ)构成。
A是有限动作的集合。
P是状态转移矩阵。
是奖励函数。
策略:输入状态为 s 的情况下采取动作 a 的概率。
策略完全定义了智能体的行为,仅却决于当前状态。
状态价值函数:
动作价值函数:
贝尔曼期望方程:
最优状态价值函数:
最优动作价值函数:
最优策略:
策略间的偏序:当且仅当对于任意状态 s 都有 时,记作。
最优策略:在有限状态和动作的MDP中,至少存在一个策略不劣于其他所有策略,即。
所有最优策略具有相同的最优状态价值函数和最优动作价值函数。
可以通过最大化 来找到最佳策略。
任何MDP都始终有确定性的最佳策略。
贝尔曼最优方程:
贝尔曼最优方程迭代方法:价值迭代、策略迭代、Q学习、Sarsa等。