强化学习入门系列二VS马尔可夫决策过程(MDP)

1. 马尔可夫链和马尔可夫过程

马尔可夫特性:未来只取决于当前而与过去无关。
马尔可夫链:是一个概率模型,只依赖于当前状态来预测下一个状态,而与之前的状态无关,即未来与过去无关。马尔可夫链严格遵循马尔可夫特性。

注意,马尔可夫特性对于所有过程并非总是成立。例如,掷色子(下一状态)与先前的数字无关,无论显示什么数字(当前状态)

从一种状态转移到另一种状态称为转移,其概率为转移概率。可以表的形式来表示转移概率,称为马尔可夫表。
在这里插入图片描述
也可以用显示转移概率的状态图来表征马尔可夫链。
在这里插入图片描述
马尔可夫链的核心概念是未来只取决于现在,而与过去无关。一个随机过程如果遵循马尔可夫特性,则称为马尔可夫过程。

2. MDP

MDP是马尔可夫链的一种扩展。提供了一个用于对决策情景建模的数学框架。几乎所有的强化学习都可以建模为MDP。
MDP可由5个关键要素表示:

  • 智能体能够真正处于的一组状态( S S S
  • 智能体从一种状态转移到另一种状态所执行的一组行为( A A A)
  • 转移概率( P s s ′ a P_{ss'}^{a} Pssa),这是执行某一行为 a a a,从一个状态 s s s转移到另一个状态 s ′ s' s的概率
  • 奖励概率( R s s ′ a R_{ss'}^{a} Rssa),这是智能体执行某一行为 a a a,从一个状态 s s s转移到另一个状态 s ′ s' s所获得奖励的概率
  • 折扣因数( γ \gamma γ),它控制着即时奖励和未来奖励的重要性

a. 奖励与回报

在强化学习环境中,一个智能体通过执行行为并从一个状态转移到另一个状态来与环境交互。根据其所执行的行为,接收到相应的奖励。奖励只不过是一个数值,比如,执行好的行为,则奖励为+1;执行差的行为,则奖励为-1。确定一个行为好坏的方式是:在迷宫游戏中,好的行为就是智能体能够向前运动而不会撞到迷宫的墙壁,而坏的行为是智能体运动导致装上迷宫墙壁。

智能体试图使得从环境中获得的总奖励(累计奖励)最大化,而不是即时奖励。智能体从环境中获得的总奖励(累计奖励)最大化,而不是即时奖励。智能体从环境中获得的奖励总额称为回报。因此,智能体所获得的奖励总额(回报)可计算如下:
R t = r t + 1 + r t + 2 + ⋅ ⋅ ⋅ + r T R_{t}=r_{t+1}+r_{t+2}+···+r_{T} Rt=rt+1+rt+2++rT
式中, r t + 1 r_{t+1} rt+1是智能体在执行行为 a 0 a_{0} a0使得从一个状态转移到另一个状态过程中在时间步

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值