动态规划

火鸡哥

于 2018-08-01 17:53:45 发布

阅读量410

点赞数

分类专栏：机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012587024/article/details/81335380

版权

机器学习同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

动态规划

在动态规划设置中，智能体完全了解 MDP，因此智能体不需要互动就能学习到最优策略；

为了获得策略 $π$ 对应的状态值函数 $v_π$ ，我们只需求解 $v_π$ 的贝尔曼预期方程对应的方程组即可；虽然可以通过分析方式求解方程组，但是我们将重点讲解以下三种迭代方法。

有这之前，先来看一下贝尔曼方程;
贝尔曼预期方程:
动作值函数

q π (s, a) = \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$q_π(s,a) = \sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}$
状态值函数

v π (s) = \sum a \in A (s) π (s) * q π (s, a)

$v_π(s) = \sum_{a∈A(s)}{π(s)*q_π(s,a)}$

贝尔曼最优性方程：
动作值函数

q π (s, a) = \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$q_π(s,a) = \sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}$
状态值函数

v π (s) = m a x a \in A (s) Q (s, a)

$v_π(s) = max_{a∈A(s)}Q(s,a)$

最优策略：

π' = a r g m a x a \in A (s) Q (s, a)

$π' = argmax_{a∈A(s)}Q(s,a)$

1､策略迭代

策略迭代是一种可以在动态规划设置中解决 MDP 的算法。它包含一系列的策略评估和改进步骤，肯定会收敛于最优策略（对应任意有限 MDP）。

迭代策略评估是在动态规划设置中用到的算法，用于估算策略 $π$ 对应的状态值函数 $v_π$ 。在此方法中，我们将向值函数估值中应用贝尔曼更新，直到估值的变化非常小。

状态值的计算公式（r：奖赏，g：折扣率）：

v π (s) = \sum a \in A (s) π (s) * \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$v_π(s) = \sum_{a∈A(s)}{π(s)*\sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}}$

动作值的估值在动态规划设置中，可以使用以下方程从状态值函数 $v_π$ 快速获得动作值函数 $q_π$ ：

q π (s, a) = \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$q_π(s,a) = \sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}$

策略改进：对应每个状态 $s∈S$ ，只需选择最大化 $Q(s,a)$ 的动作 $a$ 。即：

π^{'} = a r g m a x_{a \in A (s)} Q (s, a)

$π' = argmax_{a∈A(s)}Q(s,a)$

2､截断策略迭代

截断策略迭代是在动态规划设置中用来估算策略 $π$ 对应的状态值函数 $v_π$ 的算法。对于此方法，在对状态空间执行固定次数的遍历后，停止评估步骤。我们将评估步骤中的此方法称为截断策略评估。

动作值评估：

q π (s, a) = \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$q_π(s,a) = \sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}$
策略改进：

π' = a r g m a x a \in A (s) Q (s, a)

$π' = argmax_{a∈A(s)}Q(s,a)$
策略评估：

v π (s) = \sum a \in A (s) π (s) * q π (s, a)

$v_π(s) = \sum_{a∈A(s)}{π(s)*q_π(s,a)}$

3､值迭代

值迭代是在动态规划设置中用来估算策略 $π$ 对应的状态值函数 $v_π$ 的算法。对于此方法，每次对状态空间进行遍历时，都同时进行策略评估和策略改进。

动作值评估：

q π (s, a) = \sum s' \in S, r \in R p (s', r | s, a) * (r + g * v π (s'))

$q_π(s,a) = \sum_{s'∈S,r∈R}{p(s',r|s,a)*(r+g*v_π(s'))}$
策略评估：

v π (s) = m a x a \in A (s) Q (s, a)

$v_π(s) = max_{a∈A(s)}Q(s,a)$
策略改进：

π' = a r g m a x a \in A (s) Q (s, a)

$π' = argmax_{a∈A(s)}Q(s,a)$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄11年

54
原创

29
点赞

183
收藏

13
粉丝

关注

私信

热门文章

分类专栏

2021-01 3篇
特征工程 6篇
机器学习 33篇
非监督学习 5篇
监督学习 8篇
强化学习 3篇
numpy
android 4篇
随记 7篇
数学 4篇

最新评论

tensorflow2.0 | 训练模型的三种方式
普通网友: 模型训练还得是GPU速度快，可以找平台租个GPU，我就是找了几个，autodl，inscode和炼丹侠去租的A100，跑训练的时候比我本机快了将近10倍，而且调优之后启动也特别快，炼丹侠还有免费试用活动，我是觉得用租卡的钱换节省的时间很值
神经网络之过拟合
Nothing0121: dropout丢弃比率为0.5为什么变成那个矩阵啊？不是很明白，具体丢弃的原则是什么啊？
特征相关性
菜菜超努力: 请问特征相关性这一块有没有文献参考
恶毒评论分类报告
weixin_61077387: 求代码邮箱：zaizaigui0210@163.com
恶毒评论分类报告
weixin_43023107: 请问可以给一下代码吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。