JoyRL 学习笔记task01-1

最新推荐文章于 2024-10-02 21:20:07 发布

未来的心

最新推荐文章于 2024-10-02 21:20:07 发布

阅读量364

点赞数 9

文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_45705639/article/details/135659444

版权

马尔可夫决策概念：是一个智能体与环境进行交互的过程中，到达一个目标的过程。
首先环境会给智能体一个状态St，然后智能体表现出对应的动作at给环境，然后环境再给智能体对动作at的奖励rt+1,并生成一个新的状态St+1。
没错，总共分为3部分连接循环：即状态->动作->奖励,新状态->新动作->新奖励。而智能体的目标就是积累最大奖励。
如下图：

在具体数学中怎么表示的:(当然，在实际的例子上，可能不是完全满足这个公式—仅仅以来前一个状态[可能会依赖前面几个状态]，但!!其仍然十分重要)
在这里插入图片描述

在马尔可夫决策过程中智能体的目标是最大化累积的奖励。
累积的方法：

在这里插入图片描述

( 它表示了我们在考虑未来奖励时的重要程度，控制着当前奖励和未来奖励之间的权衡。)
在这里插入图片描述
明显越到后面，其获得的奖励权值就越小，最后几乎为0。可以在变一下，变成迭代公式：

截至目前，我们讨论的都是有限状态马尔可夫决策过程（ finite MDP ），这指的是状态的数量必须是有限的（无论是离散的还是连续的。）
既然状态数有限，那么我们就可以用一种状态流向图来表示智能体与环境交互过程（马尔科夫决策）中的走向。

在s1，s2，s3状态中都有三个方向变化，可以变成一个新的状态，可以回顾前面概念那里。下图表示就是马克夫链
将上面图用数学公式表示，就是状态矩阵：

之后根据矩阵卷积，可以表示状态从s到s’，变成(新的起点/之前的终点)s’到s’'的状态，最后可能会选择最大概率P的路径。

强化学习所解决的问题一定要严格满足马尔可夫性质吗？请举例说明。
不一定，其会结合其它的强化学习算法，来构建。而不单单是进行只根据前一个状态来迭代。(上文都是马尔可夫性质，都是从前一个状态而来)
例如在 AlphaGO 论文中使用了蒙特卡洛树搜索算法来解决这个问题。

马尔可夫决策过程主要包含哪些要素？
马尔可夫决策 <S,A,R,P,y> 来表示。
        其中 S表示状态空间，即所有状态的集合，A表示动作空间，R 表示奖励函数，P 表示状态转移矩阵，y 表示折扣因子。
        状态转移矩阵 p 是环境的一部分，而其他要素是智能体的一部分。

马尔可夫决策过程与金融科学中的马尔可夫链有什么区别与联系？
？不了解(待定)

学习来源：https://datawhalechina.github.io/joyrl-book/#/ch2/main

关注