深度强化学习（一）强化学习基本概念（马尔科夫决策过程）

最新推荐文章于 2024-06-26 18:30:31 发布

daydayjump

最新推荐文章于 2024-06-26 18:30:31 发布

阅读量3k

点赞数 2

分类专栏：深度强化学习文章标签：强化学习马尔科夫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daydayjump/article/details/90166710

版权

本文介绍了深度强化学习的基础概念，包括强化学习的四个关键元素：代理、动作、奖励和环境。重点讲解了马尔科夫决策过程（MDP），包括马尔科夫性质、马尔科夫随机过程、马尔科夫奖励过程，以及状态-价值函数和动作-价值函数。还探讨了最优价值函数和最优策略的概念，为理解强化学习算法打下基础。

摘要由CSDN通过智能技术生成

最近需要做深度强化学习方面的内容，所以对这部分内容进行一下记录。

以下是参考的资料：

强化学习入门量子位公众号对一篇博客的翻译，强化学习入门很不错。

Deep Reinforcement Learning: An Overview 一篇关于深度强化学习的综述文章，机器之心公众号有对其的翻译，可以看一下。

知乎--强化学习怎么入门好？知乎上有详细的专栏介绍。

OpenAI 深度强化学习资源包含入门基础和代码。Spinning up项目是OpenAI教育项目的一部分，主要就是提供深度强化学习的教育资源。

接下来是对一些基本概念的整理，我是从强化学习开始整理的：

1、强化学习（Reinforcement Learning，RL），序列决策的工具，有以下几类对象：

代理 (agent) 智能体，相当于进行决策的主体。

动作（action）由代理做出，相当于做出何种决策。

奖励（reward）由代理获得。强化学习的目标就是获得尽可能多的奖励。

环境（environment）代理所处的应用场景

状态（state）代理当前的状态

对于整个强化学习，代理，即智能体，通过动作与环境进行交互，从而产生新的状态，环境会据此给出一个奖励（不同的动作会带来不同的奖励）。代理不断循环这个过程，与环境交互产生新的数据。目标是获取尽可能多的奖励，强化学习算法会根据产生的数据不断修改自身的动作策略，最终达到一个最优的动作，积累最多的奖励。

因此，强化学习的过程是交互的，与其他的机器学习算法如监督学习和非监督学习是不一样的。强化学习涉及的对象更多，更像是人类学习的过程

2、策略（policy），代理agent作出何种动作的策略。它指的并不是在具体的状态下作出何种动作，而是从全局的角度，可以看做是一个函数，输入是状态state，输出是动作action，强化学习中的策略学习方法目标就是学得一个最佳的策略，获得最大的reward。

3、马尔科夫决策过程（Markov Decision Process, MDP）

（1）马尔科夫性质：系统的下一个状态 $s_{t+1}$ 的概率分布只依赖于前一个状态 $s_{t}$ 。即对任意时间t，对任意状态 $s_{t},s_{t+1} \in S$ ，均有

$P(s_{t+1}|s_{t}) = P(s_{t+1}|s_{1},...s_{t})$

其核心假设是不论过去发生了什么，不论系统如何到达状态 $s_{t}$ ，下一个时刻转移到状态 $s_{t+1}$ 的概率只与 $s_{t}$ ，与以前的状态均无关。

马尔科夫性质描述的是每个状态的性质，对于一个随机变量序列，如果每个状态都具有马尔科夫性质，那么这个随机过程称之为马尔科夫随机过程。

（2）马尔科夫随机过程（Markov Process）：由一个二元组（S，P）表示，S={1,...,m}是状态集合，P是状态转移概率。可以用状态转移概率矩阵描述，也可以直观的用状态转移概率图来表示。

状态转移概率矩阵，为简单的二元矩阵：

$\begin{bmatrix} p_{11}&... &p_{1m} \\ \vdots &... &\vdots \\ p_{m1}& ... &p_{mm} \end{bmatrix}$

注意：矩阵每行的概率之和为1，即当前状态为i&

最低0.47元/天解锁文章

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（一）强化学习基本概念（马尔科夫决策过程）

最近需要做深度强化学习方面的内容，所以对这部分内容进行一下记录。以下是参考的资料：强化学习入门量子位公众号对一篇博客的翻译，强化学习入门很不错。Deep Reinforcement Learning: An Overview 一篇关于深度强化学习的综述文章，机器之心公众号有对其的翻译，可以看一下。知乎--强化学习怎么入门好？知乎上有详细的专栏介绍。OpenAI 深度强...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。