《强化学习》 马尔科夫MDP(二)

⽆数学者们通过⼏⼗年不断地努⼒和探索,提出了⼀套可以解决⼤部分强化学习问题的框架,这个框架就是⻢尔科夫决策过程,简称 MDP

  1. 马尔科夫性
    系统的下一个状态s‘仅与当前状态s有关,与以前的状态无关
  2. 马尔科夫过程
    是一个状态和概率组成的元组(S,P),S是有限状态集合,P是状态转移概率(矩阵),不存在东顾总和奖励。
    在这里插入图片描述
  3. 马尔科夫决策过程
    马尔科夫过程将动作(策略)和回报考虑在内成为马尔科夫决策过程,由元组(S,A,P,R,r)描述,S为有限的状态集,A为有限的动作集,P为状态转移概率,R为回报函数,r为折扣因子(用来计算累计回报)
    在这里插入图片描述
    在这里插入图片描述
    强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略π(状态到动作的映射),指给定状态s时,动作集上的一个分布
    在这里插入图片描述
    给定策略π时,可以计算累计回报
    在这里插入图片描述
    强化学习的策略往往是随机策略,假设初始状态s1出发,有很多中序列可能,所以累积回报也是随机的
    在这里插入图片描述
    1)状态值函数
    状态值函数和策略π时相对应的,策略π决定了累积回报G的状态分布。当智能体采⽤策略π时,累积回报服从⼀个分布,累积回报在状态s处的期望值定义为状态-值函数
    在这里插入图片描述
    贝尔曼方程为
    在这里插入图片描述
    在这里插入图片描述
    B为值函数的计算公式
    在这里插入图片描述
    C为状态行为值函数的计算公式
    在这里插入图片描述
    联合得到最终的值函数求解公式
    在这里插入图片描述
    最优状态值函数为
    在这里插入图片描述
    2)状态-行为值函数为
    在这里插入图片描述
    贝尔曼方程为
    在这里插入图片描述
    在这里插入图片描述
    同理得到状态行为值函数
    在这里插入图片描述
    最优状态-行为值函数为
    在这里插入图片描述
    计算状态值函数的⽬的是为了构建学习算法从数据中得到最优策略
    每个策略对应着⼀个状态值函数,最优策略⾃然对应着最优状态值函数
    已知最优状态行为值函数,最优策略也可以直接最大化状态行为值求得
    在这里插入图片描述
    在这里插入图片描述
强化学习是一种机器学习方法,马尔可夫决策过程(Markov Decision Process,MDP)是其基础理论。在强化学习中,智能体通过与环境的交互,从试错中学习最优策略,以达到最大化奖励的目标。 马尔可夫决策过程主要由5个要素组成:状态集合、动作集合、状态转移概率、奖励函数、折扣因子。强化学习中的马尔可夫决策过程可以使用Matlab进行实现。 在Matlab中,可以使用相关的工具包、函数来实现强化学习马尔可夫决策过程。比如,可以使用Reinforcement Learning Toolbox来建立和训练马尔可夫决策过程,并通过使用强化学习算法(如Q-learning、Deep Q-Network等)来求解最优策略。 首先,需要定义状态集合和动作集合,可以使用Matlab的矩阵或向量来表示。接下来,需要定义状态转移概率矩阵,它描述了在某个状态下采取某个动作后,转移到其他状态的概率。然后,需要定义奖励函数,它用于评估智能体在不同状态下获得的奖励。最后,还需要设置折扣因子,用于平衡当前奖励和未来奖励的重要性。 通过以上步骤,在Matlab中可以建立马尔可夫决策过程模型。然后,可以使用强化学习算法来训练模型,并根据训练结果产生最优策略。在训练过程中,智能体将根据当前状态选择最优动作,并根据环境的反馈(奖励)不断更新模型参数,以优化策略。 总之,强化学习马尔可夫决策过程可以通过Matlab进行实现。使用Matlab中的相关工具包和函数,可以方便地建立和训练马尔可夫决策过程模型,并求解最优策略。通过强化学习,智能体可以从与环境的交互中不断学习,最终获得最优策略来解决各种问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值