《强化学习》 马尔科夫MDP(二)

⽆数学者们通过⼏⼗年不断地努⼒和探索,提出了⼀套可以解决⼤部分强化学习问题的框架,这个框架就是⻢尔科夫决策过程,简称 MDP

  1. 马尔科夫性
    系统的下一个状态s‘仅与当前状态s有关,与以前的状态无关
  2. 马尔科夫过程
    是一个状态和概率组成的元组(S,P),S是有限状态集合,P是状态转移概率(矩阵),不存在东顾总和奖励。
    在这里插入图片描述
  3. 马尔科夫决策过程
    马尔科夫过程将动作(策略)和回报考虑在内成为马尔科夫决策过程,由元组(S,A,P,R,r)描述,S为有限的状态集,A为有限的动作集,P为状态转移概率,R为回报函数,r为折扣因子(用来计算累计回报)
    在这里插入图片描述
    在这里插入图片描述
    强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略π(状态到动作的映射),指给定状态s时,动作集上的一个分布
    在这里插入图片描述
    给定策略π时,可以计算累计回报
    在这里插入图片描述
    强化学习的策略往往是随机策略,假设初始状态s1出发,有很多中序列可能,所以累积回报也是随机的
    在这里插入图片描述
    1)状态值函数
    状态值函数和策略π时相对应的,策略π决定了累积回报G的状态分布。当智能体采⽤策略π时,累积回报服从⼀个分布,累积回报在状态s处的期望值定义为状态-值函数
    在这里插入图片描述
    贝尔曼方程为
    在这里插入图片描述
    在这里插入图片描述
    B为值函数的计算公式
    在这里插入图片描述
    C为状态行为值函数的计算公式
    在这里插入图片描述
    联合得到最终的值函数求解公式
    在这里插入图片描述
    最优状态值函数为
    在这里插入图片描述
    2)状态-行为值函数为
    在这里插入图片描述
    贝尔曼方程为
    在这里插入图片描述
    在这里插入图片描述
    同理得到状态行为值函数
    在这里插入图片描述
    最优状态-行为值函数为
    在这里插入图片描述
    计算状态值函数的⽬的是为了构建学习算法从数据中得到最优策略
    每个策略对应着⼀个状态值函数,最优策略⾃然对应着最优状态值函数
    已知最优状态行为值函数,最优策略也可以直接最大化状态行为值求得
    在这里插入图片描述
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值