DMP(马尔可夫决策过程)

DMP

一 累积回报

智能体的目标是最大化长期受到的累积回报(cumulative reward)。如何定义累计回报呢?如果在时间t时刻之后,智能体接受到的回报序列表示成
在这里插入图片描述

. 那么,我们寻求的是最大化期望回报(expected return),这里用Gt表示特定的回报序列函数。回报的表示方法之一是将回报累加,即:

在这里插入图片描述

考虑到实际场景,在计算累积回报时都会引入一个折扣因子(用γ表示)。智能体尝试选择一个动作使得未来的折扣回报累积最大化。特别的,智能体会在时刻t选择动作At能最大化期望折扣回报(expected discounted return)。即:

在这里插入图片描述

二 值函数

  • 状态值函数
    里用π表示策略,即状态到动作的映射。用π(a|s)表示当状态为s时,采取动作a的概率(条件概率分布)。在策略π下状态s的值函数(状态值函数)用
    在这里插入图片描述表示

在这里插入图片描述

  • 状态动作值函数

在策略π下,状态为s时动作a对应值函数 我们称之为状态动作值函数(action-value function),用在这里插入图片描述表示

在这里插入图片描述

三 最优策略

  • 贝尔曼方程

在这里插入图片描述

如果策略π是最优的,当且仅当对于任意的状态s, 均存在策略π对应的值函数大于等于其它策略的值函数。
用公式表示为:在这里插入图片描述

最优策略可以通过最大化动作状态值函数贝尔曼最优方程来求解。即:
在这里插入图片描述

四 RL过程

强化学习是解决交互过程中、以整体收益最大化(最大化累积回报)为导向的序列学习问题。 这里的目标即为最大化累积回报,而累积回报受过程中的策略π影响,策略π是随机变量,所以累积回报也是一个随机变量。

强化学习希望通过一个确定的函数能描述最大化的累积回报。

因此就用了累积回报的期望来描述价值函数。

根据策略最优定理:价值函数最优所对应的策略即为最优策略,即最优策略的选择可以根据价值函数的最大值来确定。

那么,强化学习求解问题最后就转化为如果获得最优的价值函数(状态值函数or状态动作值函数).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值