强化学习之马尔科夫过程

马尔科夫决策过程(MDPs)是强化学习的基础,它描述了一个无记忆的随机过程,用于建模状态转移和奖励机制。MDPs包含状态、动作、状态转移概率、奖励函数和衰减因子。值函数是MDPs的关键概念,通过贝尔曼方程进行计算。强化学习的目标是找到最优策略,最大化长期回报。MDPs可以拓展到无穷或连续状态、部分可观测和无衰减场景。
摘要由CSDN通过智能技术生成

马尔可夫过程

马尔可夫决策过程(Markov Decision Processes,MDPs)是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述:

  • 最优控制问题可以描述为连续MDPs
  • 部分观测环境可以转化成POMDPs
  • 赌博机问题是只有一个状态的MDPs

本文中介绍的MDPs是在全观测的环境下进行的!

马尔科夫性

如果在t时刻的状态 St S t 满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。

P[St+1|St]=P[St+1|S1,...,St] P [ S t + 1 | S t ] = P [ S t + 1 | S 1 , . . . , S t ]

  • 状态 St S t 包含了所有历史相关信息,或者说历史的所有状态的相关信息都在当前状态 St S t 上体现出来
  • 一旦 St S t 知道了,那么 S1,S2,...,St1 S 1 , S 2 , . . . , S t − 1 都可以被抛弃
  • 数学上可以认为状态是将来的充分统计量,这里要求环境全观测,比如下棋时,只关心当前局面,打俄罗斯方块时,只关心当前屏幕

状态转移矩阵

状态转移概率指从一个马尔科夫状态s跳转到后继状态 s s ′ 的概率

Pss=P[St+1=s|St=s] P s s ′ = P [ S t + 1 = s ′ | S t = s ]

所有的状态组成行,所有的后继状态组成列,我们得到状态转移矩阵
P=p11pm1p1npmn P = [ p 11 ⋯ p 1 n ⋮ ⋱ ⋮ p m 1 ⋯ p m n ]

n表示状态的个数,每行元素相加和等于1

状态转移函数

我们可以将状态转移概率写成函数形式

P(s|s)=P[St+1=s|St=s] P ( s ′ | s ) = P [ S t + 1 = s ′ | S t = s ]

  • sP(s|s)=1 ∑ s ′ P ( s ′ | s ) = 1
  • 状态数量太多或者无穷大(连续状态)时,更适合使用状态转移函数,此时 sP(s|s)=1 ∫ s ′ P ( s ′ | s ) = 1

马尔可夫过程(Markov process,MP)

马尔可夫过程是一个无记忆的随机过程,即一些马尔可夫状态的序列,马尔可夫过程可以由一个二元组来定义 < S,P >,S表示状态的集合,P描述状态转移矩阵
:虽然我们不知道P的具体值,但是通常我们假设P存在且稳定,当P不稳定时,不稳定环境在线学习,快速学习

这里写图片描述

如上图:

  • 一个学生每天需要学习三个科目,然后通过测验
  • 有的可能智学苑两个科目之后直接睡觉
  • 一旦挂科有可能需要重新学习某些科目
  • 该过程用椭圆表示普通状态,每条线上的数字表示从一个状态跳转到另一个状态的概率
  • 方块表示终止状态
  • 终止状态的定义有两种:
    • 时间终止
    • 状态终止

由于马尔可夫过程可以用图中的方块和线条表示,所以马尔可夫过程也成为马尔可夫链

片段

强化学习中,从初始状态 S1 S 1 到终止状态的序列过程,被称为一个片段 S1,S2,...,ST S 1 , S 2 , . . . , S T

  • 如果一个任务总以终止状态结束,那么这个任务被称为片段任务
  • 如果一个任务会没有终止状态,会被无限执行下去,被称为连续性任务

这里写图片描述
状态转移矩阵:

这里写图片描述

马尔可夫奖励过程(MRP)

马尔可夫链主要描述的是状态之间的转移关系,在这个转移关系上赋予不同的奖励值即得到了马尔可夫奖励过程。

  • S代表状态的集合
  • P表示状态转移矩阵
  • R表示奖励函数,R(s)描述在状态s的奖励 R(s)=E[Rt+1|St=s] R ( s ) = E [ R t + 1 | S t = s ]
  • γ γ 表示衰减因子, γ[0,1] γ ∈ [ 0 , 1 ]

这里写图片描述

回报值

奖励值是对每一个状态的评价,回报值是对每一个片段的评价
回报值(return Gt G t )是从时间t处开始的累计衰减奖励

  • 对于片段性任务

    Gt=Rt+1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值