JoyRL 学习笔记task01-1

1.马尔可夫决策的过程

  • 马尔可夫决策概念:是一个智能体与环境进行交互的过程中,到达一个目标的过程。
  • 首先环境会给智能体一个状态St,然后智能体表现出对应的动作at环境,然后环境再给智能体动作at奖励rt+1,并生成一个新的状态St+1
    没错,总共分为3部分连接循环:即状态->动作->奖励,新状态->新动作->新奖励。而智能体的目标就是积累最大奖励
    如下图:
    在这里插入图片描述

1.1.马尔可夫的性质

  • 介绍马尔可夫决策过程的一个前提,是了解马尔可夫的性质

在具体数学中怎么表示的:(当然,在实际的例子上,可能不是完全满足这个公式—仅仅以来前一个状态[可能会依赖前面几个状态],但!!其仍然十分重要)
在这里插入图片描述

1.2.回报(奖励的累积)

在马尔可夫决策过程中智能体的目标最大化累积的奖励
累积的方法:

  • 最简单的公式——适合有限时步(即有一个有限值T)

在这里插入图片描述

  • 带折扣因子(discount factor)【其范围在0到1之间】的公式—适合无限时步

( 它表示了我们在考虑未来奖励时的重要程度,控制着当前奖励和未来奖励之间的权衡。)
在这里插入图片描述
明显越到后面,其获得的奖励权值就越小,最后几乎为0。可以在变一下,变成迭代公式:
在这里插入图片描述

1.3.状态转移矩阵

截至目前,我们讨论的都是有限状态马尔可夫决策过程( finite MDP ),这指的是状态的数量必须是有限的(无论是离散的还是连续的。)
既然状态数有限,那么我们就可以用一种状态流向图来表示智能体与环境交互过程(马尔科夫决策)中的走向。

  • 在s1,s2,s3状态中都有三个方向变化,可以变成一个新的状态,可以回顾前面概念那里。下图表示就是马克夫链
    在这里插入图片描述
  • 将上面图用数学公式表示,就是状态矩阵:
    状态转移概率
    在这里插入图片描述
    状态转移矩阵
    之后根据矩阵卷积,可以表示状态从s到s’,变成(新的起点/之前的终点)s’到s’'的状态,最后可能会选择最大概率P的路径。

1.4.习题

强化学习所解决的问题一定要严格满足马尔可夫性质吗?请举例说明。
不一定,其会结合其它的强化学习算法,来构建。而不单单是进行只根据前一个状态来迭代。(上文都是马尔可夫性质,都是从前一个状态而来)
例如在 AlphaGO 论文中使用了蒙特卡洛树搜索算法来解决这个问题。
马尔可夫决策过程主要包含哪些要素?
马尔可夫决策 <S,A,R,P,y> 来表示。
        其中 S表示状态空间,即所有状态的集合,A表示动作空间,R 表示奖励函数,P 表示状态转移矩阵,y 表示折扣因子。
        状态转移矩阵 p 是环境的一部分,而其他要素是智能体的一部分。
马尔可夫决策过程与金融科学中的马尔可夫链有什么区别与联系?
?不了解(待定)

学习来源:https://datawhalechina.github.io/joyrl-book/#/ch2/main

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值