1.马尔可夫决策的过程
- 马尔可夫决策概念:是一个智能体与环境进行交互的过程中,到达一个目标的过程。
- 首先环境会给智能体一个状态St,然后智能体表现出对应的动作at给环境,然后环境再给智能体对动作at的奖励rt+1,并生成一个新的状态St+1。
没错,总共分为3部分连接循环:即状态->动作->奖励,新状态->新动作->新奖励。而智能体的目标就是积累最大奖励。
如下图:
1.1.马尔可夫的性质
- 介绍马尔可夫决策过程的一个前提,是了解马尔可夫的性质
在具体数学中怎么表示的:(当然,在实际的例子上,可能不是完全满足这个公式—仅仅以来前一个状态[可能会依赖前面几个状态],但!!其仍然十分重要)
1.2.回报(奖励的累积)
在马尔可夫决策过程中智能体的目标是最大化累积的奖励。
累积的方法:
- 最简单的公式——适合有限时步(即有一个有限值T)
- 带折扣因子(discount factor)【其范围在0到1之间】的公式—适合无限时步
( 它表示了我们在考虑未来奖励时的重要程度,控制着当前奖励和未来奖励之间的权衡。)
明显越到后面,其获得的奖励权值就越小,最后几乎为0。可以在变一下,变成迭代公式:
1.3.状态转移矩阵
截至目前,我们讨论的都是有限状态马尔可夫决策过程( finite MDP ),这指的是状态的数量必须是有限的(无论是离散的还是连续的。)
既然状态数有限,那么我们就可以用一种状态流向图来表示智能体与环境交互过程(马尔科夫决策)中的走向。
- 在s1,s2,s3状态中都有三个方向变化,可以变成一个新的状态,可以回顾前面概念那里。下图表示就是马克夫链
- 将上面图用数学公式表示,就是状态矩阵:
之后根据矩阵卷积,可以表示状态从s到s’,变成(新的起点/之前的终点)s’到s’'的状态,最后可能会选择最大概率P的路径。
1.4.习题
强化学习所解决的问题一定要严格满足马尔可夫性质吗?请举例说明。
不一定,其会结合其它的强化学习算法,来构建。而不单单是进行只根据前一个状态来迭代。(上文都是马尔可夫性质,都是从前一个状态而来)
例如在 AlphaGO 论文中使用了蒙特卡洛树搜索算法来解决这个问题。
马尔可夫决策过程主要包含哪些要素?
马尔可夫决策 <S,A,R,P,y> 来表示。
其中 S表示状态空间,即所有状态的集合,A表示动作空间,R 表示奖励函数,P 表示状态转移矩阵,y 表示折扣因子。
状态转移矩阵 p 是环境的一部分,而其他要素是智能体的一部分。
马尔可夫决策过程与金融科学中的马尔可夫链有什么区别与联系?
?不了解(待定)
学习来源:https://datawhalechina.github.io/joyrl-book/#/ch2/main