强化学习(Reinforcement Learning, RL)理论部分之马尔科夫(Markov Decision Processes,MDP):

博主:CherFen

一、 马尔科夫决策过程之Markov Processes(马尔科夫过程):

       马尔科夫决策过程(Markov Decision Processes,MDP),是强化学习研究的理论基石,MDP过程是一种随机过程,该模型能够提供一种非常简便的表达方式,对于解决序贯决策问题(Sequential Decision)十分有效。        

l  面对的状态St,数量是有限的

l  采取的行动方案at,数量是有限的

l  对应于特定的状态St,当下的收益rt是明确的

l  在某一个时刻t,采取行动方案at,状态从当前的St转换成下一个状态,下一个状St+1态有很多种可能,记为Sit+1,i=1…n。

        具有马尔科夫性质的状态满足下面公式:

        

        所谓的马尔科夫性是指系统的下一个状态St+1仅与当前的状态St有关,而与以前的状态无关,面对局面St,采取行动at,下一个状态是,不是确定的,而是概率的,状态转换概率,记为P(Sit+1 |St,at),但是状态的转换只依赖于当前的状态St,而与先前状态St-1,St-2…无关。

        马尔科夫过程是一个二元组(S,P),且满足:S是有限状态集合,P是状态转移概率,

 

        状态转移概率公式:Pss’ = P(St+1 = s’| St = s)

        状态转移概率矩阵为:

        
        

        马尔科夫链是指在给定状态转移概率时,从某个状态出发存在多条马尔科夫链,马尔科夫过程中不存在动作和奖励,将动作(策略)和回报考虑在内的马尔科夫过程称之马尔科夫决策过程。

二、马尔科夫决策过程之MarkovReward Process(马尔科夫奖励过程):        

        马尔科夫决策过程是由元组(S,A,P,R,γ)描述:其中

l  S 为有限的状态集

l  A 为有限的动作集

l  P 为状态转移的概率

l  R 为回报函数

l  γ为折扣因子,用来计算累计回报

        强化学习的目标在于给定一个马尔科夫决策过程,寻找最优策略。策略是指状态到动作的映射,策略常用符号π表示,指给定状态S时,动作集上的一个分布,

        即:

 

 

强化学习是找到最优的策略,这里的最优是指得到的总回报最大。当给定一个策略π时,我们可以计算累计回报。

即:

       在策略π下,我们可以获得多个Gt值,由于策略π是随机的,因此累积回报也是随机的。为了评价状态St的价值,我们需要定义一个确定量来描述状态St的价值,很自然的想法是利用累积回报来衡量状态S1的价值。然而,累积回报Gt是个随机变量,不是一个确定值。因此无法描述,但其期望是个确定值,可以作为状态值函数。

状态-值函数:

       当智能体采用策略π时,累积回报服从一个分布,累积回报在状态S处的期望值定义为状态-值函数:

       即:

       

状态-行为函数为:

    

三、马尔科夫决策过程之BellmanEquation(贝尔曼方程):

状态-值函数的贝尔曼方程:

    即:

    

状态-动作值函数贝尔曼方程:

    即:

    

    计算状态值函数的目的是为了构建学习算法从数据中取得到最优策略,每个策略对应着一个状态值函数,最优策略自然对应最优状态值函数。

最优状态值函数为所在策略中值最大的值函数,

    即:

    

    最优状态-行为值函数为所在策略中最大的状态-行为值函数,

    即:

    

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
强化学习是一种通过与环境互动来学习最佳行为策略的机器学习方法。为了开始学习这一领域,首先需要了解一些强化学习的基本算法。《Reinforcement Learning: An Introduction》(Sutton and Barto, 1998)是一本经典的强化学习教材,可以帮助初学者了解强化学习的基本概念和算法。该书介绍了强化学习的基本原理、价值函数、贝尔曼方程等重要概念,并介绍了一些经典的强化学习算法,如蒙特卡洛方法、时序差分学习、Q-learning等。这些算法是理解强化学习的基石,对初学者来说非常有帮助。 另外一本不错的入门教材是《Algorithms for Reinforcement Learning》(Szepesvári, 2009),这本书更加强调强化学习的算法和数学基础。它详细介绍了动态规划、值迭代、策略迭代、TD学习等强化学习算法,并提供了一些例子和应用场景,有助于初学者更深入地理解强化学习算法的原理和实际应用。 除了书籍,MOOC平台上也有一些优秀的强化学习入门课程,如Coursera上的《Reinforcement Learning Specialization》和Udemy上的《Practical Reinforcement Learning》。这些课程结合了理论和实践,通过视频、案例分析等方式向学习者介绍强化学习的基本原理和算法,并帮助学习者掌握强化学习的实际应用技能。 总之,要想学习强化学习,首先需要了解一些基本的强化学习算法,上述提到的书籍和课程都是不错的入门资料,可以帮助初学者快速入门强化学习领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值