给西瓜浇水问题的马尔可夫决策过程理解

小羊冲呀

于 2020-11-13 15:09:00 发布

阅读量590

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41758867/article/details/109674509

深度强化学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了强化学习的基础概念，通过马尔可夫决策过程（MDP）进行阐述。机器在环境E中根据状态空间X和动作空间A进行交互，通过潜在的转移函数P和奖赏函数R学习最优策略π。确定性策略对应于每个状态下的唯一动作，而随机性策略则涉及概率分布。强化学习与监督学习的区别在于没有预定义的标记样本，而是延迟的标记信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理解自周志华《机器学习》

在强化学习的过程中，首先是对强化学习的理解，可用马尔可夫决策过程（Markov Decision Process, MDP)来理解:

机器处于环境E中，状态空间为 $X$ ，其中每个状态 $x \in X$ 是机器感知到的环境的描述，机器能采取的动作构成了动作空间 $A$ ，若某个动作 $a \in A$ 作用在当前状态 $x$ 上，则潜在的转移函数 $P$ 将使得环境从当前状态按某种概率转移到另一个状态，同时，环境会根据潜在的“奖赏函数 $R$ ”反馈给机器一个奖赏。

在这里插入图片描述

在上述图片中，最优策略为：在“健康”状态时选择“浇水”、在“溢水”状态时选择“不浇水”、在“缺水”状态时选择“浇水”、在“凋亡”状态时选择”浇水“货”不浇水“都可以。上述最优策略使根据动作所对应 $p$ （概率）来得出最优奖赏的过程。

机器的任务就是通过在环境中不断城市而学得一个”策略“（policy） $\pi$ ，根据这个策略，在状态 $x$ 下就能得知要执行的动作 $a=\pi(x)$ 。策略有两种：

确定性策略：表示为 $\pi：X$ ➡ $A$ ，即一个状态 $x$ 下对应一个确定的动作 $a$ 下。
随机性策略：表示为 $\pi：X$ × $A$ ➡ $R$ ，其中 $\pi(x,a)$ 表示状态 $x$ 下选择动作 $a$ 的概率，并且不同状态对应的概率之和为1。

强化学习与监督学习的区别
若状态对应示例，动作对应标记，则策略相当于分类器（离散）或者回归器（连续）。但强化学习中没有有标记样本，在某种意义上可看作”具有延迟标记信息“的监督学习问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小羊冲呀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。