作者:王小草
笔记时间:2019年1月20日
1 马尔科夫性质与过程
1.1 马尔科夫性质
-
马尔科夫性质即:
系统的下一状态只与当前状态有关,与以前的历史状态无关。 -
公式表达:
-
特点:
- 当前状态蕴含所有相关历史信息
- 一旦当前状态已知,历史信息将会被抛弃
1.2 马尔科夫过程
-
马尔科夫过程即:
该过程中所有状态都满足马尔科夫性。 -
表示:
马尔科夫过程可以用一个二元组表示(S, P)- S 是一个有限的状态集合
- P 是状态之间的转移概率矩阵,P_ss’表示从状态s转移到状态s’的概率
-
转移矩阵
若马尔科夫过程有N个状态,则转移概率矩阵就是一个N*N的方正:
转移概率矩阵的性质为:
- (1)非负性:P_ij>0
- (2)每行的和为1
注意:每列的和不一定为1,该矩阵不一定是对称矩阵,即P_ij不一定等于P_ji
-
示例
这是一个经典例子,表示一个学生学习,圆圈代表的是状态(刷facebook,class1,class2,class3, pass, sleep,泡pub);箭头代表的是状态之间的转移,箭头上的概率就是状态之间的转移概率,比如若是在刷facebook,下一个状态有0.9的概率还是在刷facebook, 只有0.1的概率去上class1,作孽啊;方框代表着终止状态,即一旦到达这个状态就停止了,不会再转移到其他状态。
2 马尔科夫奖励过程MRP
马尔科夫奖励过程比马尔科夫过程多两个元素:奖励函数与折扣因子。
-
表示:
马尔科夫奖励过程可以用四元组表示:M = < S, P, R, γ >- S 是一个有限的状态集合
- P 是状态之间的转移概率矩阵,P_ss’表示从状态s转移到状态s’的概率
- R 是一个奖励函数,是状态s转移到下一状态的奖励的期望
- γ 是一个折扣因子,即未来的奖励在今天看来需要有打一个折扣,毕竟现在给你100万和10年后给你100万是不一样的嘛。