强化学习核心问题与算法解析

最新推荐文章于 2025-09-12 22:50:41 发布

原创

最新推荐文章于 2025-09-12 22:50:41 发布 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 # Q函数 # 策略函数

1、在强化学习中，智能体可以选择生成哪些训练示例。为什么这是有益的？潜在问题是什么？

强化学习的优势与挑战

优势

主动学习形式 ：强化学习是一种主动学习形式，具有高度的自主性，吸引了众多研究人员的关注。
智能体的自主选择 ：智能体能够自主选择学习的动作，并通过环境奖励生成即时数据。
建立行动策略 ：智能体可以根据遇到的不同世界状态，逐步建立有效的行动策略。

潜在问题

停留于舒适区 ：智能体容易停留在“舒适区”，陷入正强化泡沫中，可能误以为自身表现良好。
学习局限 ：在强化学习过程中，智能体可能对周围世界的探索和学习不足。
循环反馈与局部最小值 ：可能出现循环反馈问题，并陷入局部最小值。
收敛性要求 ：必须确保所采用的方法能够收敛到全局最优解。

2、什么是网格世界？

网格世界简介

网格世界是强化学习中最早遇到的环境之一，由矩形方格组成，包含起始方格和目标方格。

环境目标

目标是让智能体找到从起始方格到达目标方格所需采取的动作序列，包括：

环境复杂性

在一些复杂版本中，会添加：

“损失”方格 ：得分减分
“墙”方格 ：智能体无法穿过

学习过程

智能体通过以下方式找到路线：

探索网格
采取不同动作
记录奖励

随后尝试改进路线以找到更短路径。

应用价值

网格世界是适合手动试验强化学习算法、建立对算法理解直觉的简单环境。

3、用于建模强化学习问题的马尔可夫决策过程（MDP）有哪五个要素？

用于强化学习的马尔可夫决策过程被定义为一个五元组 $(S, A, T_a, R_a, \gamma)$，其中：

$S$ 是环境的有限合法状态集；
$A$ 是有限的动作集；
$T_a(s, s’)$ 是在时间 $t$ 状态 $s$ 下执行动作 $a$ 在环境中转移到时间 $t + 1$ 状态 $s’$ 的概率；
$R_a(s, s’)$ 是动作 $a$ 将状态 $s$ 转移到状态 $s’$ 后获得的奖励；
$\gamma$ 是表示未来和当前奖励差异的折扣因子，$\gamma \in [0, 1]$。

4、在树形图中，通过反向传播学习值是向上还是向下进行的？

向上

5、π(s) 是什么？

π(s) 表示确定性策略，其中 π : S → A，即确定性策略在每个状态中选择单一动作。

6、什么是V (s)？

下面是给定的【文本内容】：

状态价值函数
$ V(s) $ 通常是省略了策略 $ \pi $ 的状态价值函数 $ V^\pi(s) $ 的简化写法。
它将每个状态映射到一个实数（期望回报），即：

$$
V : S \rightarrow \mathbb{R}
$$

表示在某个策略下从状态 $ s $ 出发预期获得的平均回报。

定义范围
状态价值是针对每个可能的状态 $ s \in S $ 定义的。
终端状态
终端状态的状态价值定义为零。

7、什么是 Q(s, a)？

Q(s, a) 是状态-动作价值函数，对于每个策略 π 都有唯一关联的状态-动作价值函数 Q<sup>π</sup>(s, a)。它是一个将每个状态-动作对映射到实数的函数 Q : S × A → R。

在离散状态和动作空间中，Q(s, a) 可以表示为大小为 |S| × |A| 的表格，每个表格条目存储特定 s, a 组合的 Q(s, a) 估计值。

根据定义，终端状态的状态-动作价值为零，即  
s = 终端 ⇒ Q(s, a) := 0, ∀a。