DMP(马尔可夫决策过程)

*Major*

于 2020-10-23 10:31:49 发布

阅读量1.4k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41375318/article/details/109237420

版权

一累积回报

智能体的目标是最大化长期受到的累积回报（cumulative reward）。如何定义累计回报呢？如果在时间t时刻之后，智能体接受到的回报序列表示成
在这里插入图片描述

. 那么，我们寻求的是最大化期望回报（expected return），这里用Gt表示特定的回报序列函数。回报的表示方法之一是将回报累加，即：

在这里插入图片描述

考虑到实际场景，在计算累积回报时都会引入一个折扣因子（用γ表示)。智能体尝试选择一个动作使得未来的折扣回报累积最大化。特别的，智能体会在时刻t选择动作At能最大化期望折扣回报（expected discounted return）。即：

在这里插入图片描述

二值函数

状态值函数
里用π表示策略，即状态到动作的映射。用π(a|s)表示当状态为s时，采取动作a的概率(条件概率分布)。在策略π下状态s的值函数(状态值函数)用
表示

在这里插入图片描述

状态动作值函数

在策略π下，状态为s时动作a对应值函数我们称之为状态动作值函数（action-value function），用在这里插入图片描述表示

在这里插入图片描述

三最优策略

贝尔曼方程

在这里插入图片描述

如果策略π是最优的，当且仅当对于任意的状态s, 均存在策略π对应的值函数大于等于其它策略的值函数。
用公式表示为：在这里插入图片描述

最优策略可以通过最大化动作状态值函数贝尔曼最优方程来求解。即：
在这里插入图片描述

四 RL过程

强化学习是解决交互过程中、以整体收益最大化（最大化累积回报）为导向的序列学习问题。这里的目标即为最大化累积回报，而累积回报受过程中的策略π影响，策略π是随机变量，所以累积回报也是一个随机变量。

强化学习希望通过一个确定的函数能描述最大化的累积回报。

因此就用了累积回报的期望来描述价值函数。

根据策略最优定理：价值函数最优所对应的策略即为最优策略，即最优策略的选择可以根据价值函数的最大值来确定。

那么，强化学习求解问题最后就转化为如果获得最优的价值函数（状态值函数or状态动作值函数）.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。