Markov Process & Markov chain 马尔可夫过程及马尔科夫链
如果一个状态是符合马尔可夫的,那就是说一个状态的下一状态只取决于它当前的状态,而跟它之前的状态都没有关系。
Markov Reward Process
马尔可夫过程加上一个奖励函数便构成了马尔可夫奖励过程
这里我们进一步阐述和温习一些概念及定义。
Horizon指一个回合的长度(每个回合的最大时间步数),它由有限个步数决定的
Return指把奖励折扣后所获得的收益,可以定义为奖励的逐步叠加:
正如我们上一篇博客所讲的一样。是折扣因子, 一般
,我们可以观察到越靠后时间所取得的奖励前面的折扣就越多,
的作用在于我们尽可能在短的时间里面去的尽可能多的奖励,时间越向后所获得的奖励就要乘上越多的小于一的
,使得奖励变少。同时,
的存在也可以避免闭环的产生;
当有了的定义后我们回过来看状态价值函数(state value function)
一个状态对未来取得奖励的期望决定了它的价值,期望就是说从这个状态开始,你有可能取得多大的价值,这个值越大代表当前状态越有价值
Bellman equation的定义
我们可以从价值函数里面推导出Bellman Equation (贝尔曼等式),如下