DeepRoute Lab | 深入浅出强化学习（原理篇）

最新推荐文章于 2025-03-22 00:25:12 发布

DeepRoute_Lab

最新推荐文章于 2025-03-22 00:25:12 发布

阅读量697

点赞数 1

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DeepRoute_Lab/article/details/129142413

版权

本文详细介绍了强化学习的基本概念，包括马尔可夫决策过程、策略与价值函数，以及动态规划、时序差分和策略梯度等方法。通过实例解析，帮助读者掌握强化学习的核心思想，为后续的深入学习打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习（Reinforcement Learning，RL），是机器学习的基础范式和方法论之一。本文尝试通过对强化学习核心思想和原理的介绍，让读者能够快速掌握强化学习的基础，从而更好地开启下一阶段的学习。

01

RL是什么？

强化学习（Reinforcement Learning，RL），又被称为激励学习、评价学习或者增强学习，是机器学习的范式和方法论之一；用于描述和解决智能体（agent)在与环境的交互过程中，通过学习策略达成回报最大化或者实现特定目标的问题。

机器学习的三大类别：

a. 监督学习
b. 无监督学习
c. 强化学习

图一机器学习的三大类别

我们可以通过对狗的训练，来大概体会一下强化学习：

如果狗执行了我们的指令（action），我们就给予骨头等奖励（reward）
如果狗不执行我们的指令（action），我们就给予一些惩罚（负向的reward）
通过一定时间的强化（反复）训练，狗就学会了对指令的执行

图二狗的训练

对于狗的训练，可以看作一个单步（step）或者单幕（episode）的强化学习过程，而真实场景的RL，应该是多幕（episode）的（或者无限）。

注：强化学习中，每一步的信息可以用 <状态, 动作, 奖励> 的三元组表示，每一幕是指过程终止前的所有步的信息（也被称之为轨迹），这在下面的章节中会详细介绍。

02

马尔可夫性质&马尔可夫决策过程

马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。要用强化学习解决一个实际问题，就需要把这个问题抽象为马尔可夫决策过程。马尔可夫决策过程，符合马尔可夫性质（Markov property)。

2.1 马尔可夫性质

什么是马尔可夫性质呢？当一个随机过程，某时刻的状态只取决于上一时刻的状态时，我们就称该随机过程具备马尔可夫性质（Markov property），用公式表示为

换句话说，在给定现在的状态时，它的未来与过去状态是条件独立的。具备马尔可夫性质的随机过程，又称为马尔可夫过程（Markov process）。

图三马尔可夫性质

2.2 马尔可夫决策过程（Markov decision process）

马尔可夫决策过程在马尔可夫性质的基础上增加了一个决策者控制；它提供了一个数学框架，用于结果部分随机部分受决策者控制影响的情况下对决策建模。某时刻的状态取决于上一个时刻的状态和所采取的行动，用公式表示为

图四马尔可夫决策过程

强化学习问题，可以抽象为马尔可夫决策过程，只是采取的每一个action，除了伴随着状态转移之外，还会得到一个reward。

03

强化学习问题的构成元素

正如上面所说的，强化学习问题，在马尔可夫决策过程的基础上引入状态转移的奖励（reward)。

图五强化学习的基本元素

基于上图，我们可以把RL的问题或者场景元素分为3大类：

1. 基本元素，可以理解为比较实体的元素

a. Agent

b. Environment

c. Goal（要实现的目标）

2. 主要元素，基于Markov process的抽象，构造求解的条件

a. State (包括当前的状态s和下一个时间步的状态 s')

b. Action

c. Reward

3. 核心元素，是RL问题求解的核心所在

a. Value（价值）

b. Policy（策略）

那么要用强化学习解决问题，就需要对policy和value有足够的了解。

04

策略（Policy）&价值（Value）

我们先来明确几个术语：

￮（单步）奖励 reward，用r表示。

￮多幕任务累积的reward，或者discounted reward，我们称之为回报（Return），用大写的𝐺来表示。

𝐺可能是取自 Gain or

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。