强化学习和控制

最新推荐文章于 2024-08-04 22:54:55 发布

AlmostFree

最新推荐文章于 2024-08-04 22:54:55 发布

阅读量5.3k

点赞数

分类专栏： Machine Learning 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013508213/article/details/52207429

版权

本文深入探讨强化学习中的马尔科夫决策过程（MDP），介绍值迭代和政策迭代算法，包括它们的思想和比较。通过MDP模型，解释如何在有限和无限状态空间中进行决策，并探讨在实际问题中如何估计状态转移概率和回报函数。最后，讨论了适应值迭代在连续MDPs中的应用。

摘要由CSDN通过智能技术生成

马尔科夫决策过程MDP
值迭代和政策迭代
MDP模型
无限状态的MDPs
- 离散化
- 值函数估计
  - 使用一个模型或模拟器
  - 适应值迭代

在强化学习中，我们将提供一个奖赏函数，当目标完成的好时，便奖赏；当目标完成的不好时，就惩罚。鞭策算法走一条良好的道路。

马尔科夫决策过程（MDP）

一个Markov decision process是一个元组 $(S, A,{P_{sa}}, \gamma, R)$ 。其中：

$S$ 是状态集。比如在自动直升机驾驶中， $S$ 就是直升机的所有可能位置，方向。
$A$ 是行动。比如所有你能控制直升机的方向。
$P_{sa}$ 是状态转移概率。对于每个状态 $s \in S$ 每个行动 $a \in A$ ， $P_{sa}$ 给出了当我们在状态 $s$ 采取行动 $a$ 时，我们将会转移到的状态的分布。
$\gamma \in [0, 1)$ 称为阻尼系数。
$R:S*A->RealNumber$ 叫做回报函数。

MDP的动态过程：从初始状态 $s_0$ 开始，采取行动 $a_0 \in A$ ；MDP过程向前推进，按分布 $s_1∼P_{s_0a_0}$ 随机转换到下一个状态 $s_1$ 。以此类推，不断转换。用流程可以表示为：
$s_0->(a_0)->s_1->(a_1)->s_2->(a_2)->...$
定义其总花费：
$R(s_0, a_0)+\gamma R(s_1, a_1)+\gamma^2R(s_2,a_2)+...$
我们要做的是选择随时间变化的行动，来使得总花费的期望值最大：
max,E[R(s0,a0)+γR(s1

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。