马尔科夫过程（MDP）—— 此去的强化学习笔记（二）

最新推荐文章于 2022-12-01 12:54:49 发布

此去会经年

最新推荐文章于 2022-12-01 12:54:49 发布

阅读量554

点赞数

分类专栏： David Silver强化学习课程笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dick2737/article/details/119515426

版权

本文是作者跟随David Silver的强化学习课程所作的笔记，重点介绍了马尔科夫决策过程（MDP）的基础概念，包括马尔科夫过程、马尔科夫奖励过程和马尔科夫决策过程。文中详细阐述了马尔科夫属性、状态转移矩阵、奖励、回报、价值函数等核心概念，并探讨了MDP在强化学习中的应用。

摘要由CSDN通过智能技术生成

我是跟着David Silver 的视频和PPT（链接：http://davidsilver.uk/teaching/）来学习强化学习的，虽然很多人已经写了很多这方面的笔记了，但是我还是觉得应该学一点，记一点，因为我认为写是一个理清思路、加深理解的好方法。希望能坚持学下去，写下去。笔记主要是翻译并记录PPT中的内容，再加上一些个人的理解。

今天记录的是David课程中的第二讲。我硕士阶段主要是研究网络测量，一个比较小众的方向。进入博士阶段后，一直在思考如何使用强化学习来解决网络测量中的一些问题，以前遇到问题了就喜欢闷头干，往往是做了好长一段时间，才发现自己是在瞎碰。没有好的理论指导，科研效率是肉眼可见的低。所以，现在下定决心，一定要打好理论基础，脚踏实地。

David 强化学习课程第二讲：马尔科夫决策过程

马尔科夫决策过程（Markov decision process, MDP）可以说是强化学习的最基本条件了，判断一个问题能否用强化学习来解决，最直观的方法就是先看它是否是MDP的。那么，究竟什么是马尔科夫决策过程呢，我们一起来跟着David的课程做个了结吧。

我认为这一讲主要是要掌握一些基本概念，以及他们之间的关系，主要包括：

马尔科夫过程（Markov Processes）:
1. 马尔科夫属性
2. 状态转移矩阵
3. 什么是马尔科夫过程
马尔科夫奖励过程（Markov Reward Processes）
1. 奖励（Reward）,衰减因子 $\gamma$
2. 回报（Return）
3. 价值函数（Value Function）
马尔科夫决策过程（Markov Decision Processes）
1. 状态价值函数
2. 动作价值函数
3. 二者的关系
优化方法
1. 价值迭代
2. 策略迭代
3. Q-learning
4. Sarsa

Introduction

MDP为强化学习提供了环境
这个环境是完全可观察的：当前的状态可以完全的描述当前这一过程
几乎所有的强化学习问题都可以转化为MDP问题
- 连续的MDPs来解决优化控制问题
- 部分可观察问题可以转化为MDPs
- 老虎机问题是只有一个状态的MDP

一、马尔科夫过程（Markov Processes）

（一）马尔科夫属性（Markov Property）

当前状态已知的情况下，下一状态是与过去状态完全独立的。

最低0.47元/天解锁文章

此去会经年

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

此去会经年 CSDN认证博客专家 CSDN认证企业博客

码龄13年

11: 原创

35万+: 周排名

83万+: 总排名

1万+: 访问

: 等级

298: 积分

3: 粉丝

16: 获赞

9: 评论

45: 收藏

私信

关注

热门文章

分类专栏

最新评论

ChatGPT的前世今生
CSDN-Ada助手: 恭喜你写下了第11篇博客！标题“ChatGPT的前世今生”非常引人入胜。你对ChatGPT的历史与现状有着深入的了解，读完博客后我对其发展过程更加清晰了解。你的写作风格简洁明了，让我能够轻松理解复杂的技术概念。接下来，我希望你能够继续深入探索ChatGPT的未来发展，并结合实际应用场景给出你的观点。期待能够看到更多精彩的内容！
python实现Dijkstra + 堆优化 + 链式前向星
Asphel.Y: 这好像不是链式前向星的定义
python实现Dijkstra + 堆优化 + 链式前向星
TOMATO-IN: 谢谢，帮了我大忙
latex使用心得
Wenorm: %inst后面表示第几作者这个写错了，inst后面表示的是机构，比如2就是第二个机构。作者是按循序的，跟inst后面的数字无关
python实现Dijkstra + 堆优化 + 链式前向星
shelsea: 有些情况下得不到最短的路径，比如G = {1:{1:0, 2:12, 3:20}, 2:{2:0, 3:6,4:24,7:35}, 3:{3:0, 5:12}, 4:{4:0,5:4, 7:12}, 5:{5:0,6:8}, 6:{6:0,7:16}, 7:{7:0} }

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。