【十六】马尔科夫决策过程

最新推荐文章于 2024-02-15 14:23:09 发布

VIP文章禛zhen

最新推荐文章于 2024-02-15 14:23:09 发布

阅读量4.2k

点赞数

分类专栏：斯坦福大学公开课机器学习课程文章标签：机器学习教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/knight_wzz/article/details/53038513

版权

在之前的教程中，我们首先学习了监督学习，如logistic方程、支持向量机的方法，又学习了无监督学习，如聚类等算法。从本讲开始，我们将进入强化学习课程的学习，我们首先将接触的是马尔科夫决策过程。

马尔科夫决策过程 Markov Decision Process MDP

一个马尔科夫决策过程常由一个五元组tuple描述，为（S，A，{Psa}，γ，R），各元素意义如下：

·S为状态States的集合，如在直升机控制问题中，S可用来描述直升机的位置、方向等状态；

·A为动作Actions的集合，如用来描述直升机所有可行的运行方向；

·{Psa}为转移概率矩阵，表示在状态s的情况下，如果进行动作a，转移到下一状态的概率；

·γ是一个大于等于0，小于1的值，称为折扣因子Discount Factor；

·R是一个由状态和动作到实数的映射，称为奖励方程Reward Function。

一个典型的马尔科夫动态决策过程为：我们由状态集S中的一个状态s0初始，选择动作集A中的一个动作a0，此时，下一状态s1的概率分布服从转移概率矩阵Ps0a0，此时我们随机选择一个状态s1，然后选择一个动作a1，从而得到状态s2的概率分布，这一过程可通过下图描述

在上述过程的影响下，我们可定义回报函数Payoff Function为

最低0.47元/天解锁文章

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
【十六】马尔科夫决策过程

介绍了《机器学习》第十六讲的内容，包括了马尔科夫决策过程MDP，以及解决MDP常用的值迭代Value Iteration和政策迭代Policy Iteration过程，以及解决概率估计和迭代过程的方法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。