1、在强化学习中,智能体可以选择生成哪些训练示例。为什么这是有益的?潜在问题是什么?
强化学习的优势与挑战
优势
- 主动学习形式 :强化学习是一种主动学习形式,具有高度的自主性,吸引了众多研究人员的关注。
- 智能体的自主选择 :智能体能够自主选择学习的动作,并通过环境奖励生成即时数据。
- 建立行动策略 :智能体可以根据遇到的不同世界状态,逐步建立有效的行动策略。
潜在问题
- 停留于舒适区 :智能体容易停留在“舒适区”,陷入正强化泡沫中,可能误以为自身表现良好。
- 学习局限 :在强化学习过程中,智能体可能对周围世界的探索和学习不足。
- 循环反馈与局部最小值 :可能出现循环反馈问题,并陷入局部最小值。
- 收敛性要求 :必须确保所采用的方法能够收敛到全局最优解。
2、什么是网格世界?
网格世界简介
网格世界是强化学习中最早遇到的环境之一,由矩形方格组成,包含起始方格和目标方格。
环境目标
目标是让智能体找到从起始方格到达目标方格所需采取的动作序列,包括:
- 上
- 下
- 左
- 右
环境复杂性
在一些复杂版本中,会添加:
- “损失”方格 :得分减分
- “墙”方格 :智能体无法穿过
学习过程
智能体通过以下方式找到路线:
- 探索网格
- 采取不同动作
- 记录奖励
随后尝试改进路线以找到更短路径。
应用价值
网格世界是适合手动试验强化学习算法、建立对算法理解直觉的简单环境。
3、用于建模强化学习问题的马尔可夫决策过程(MDP)有哪五个要素?
用于强化学习的马尔可夫决策过程被定义为一个五元组 $(S, A, T_a, R_a, \gamma)$,其中:
- $S$ 是环境的有限合法状态集;
- $A$ 是有限的动作集;
- $T_a(s, s’)$ 是在时间 $t$ 状态 $s$ 下执行动作 $a$ 在环境中转移到时间 $t + 1$ 状态 $s’$ 的概率;
- $R_a(s, s’)$ 是动作 $a$ 将状态 $s$ 转移到状态 $s’$ 后获得的奖励;
- $\gamma$ 是表示未来和当前奖励差异的折扣因子,$\gamma \in [0, 1]$。
4、在树形图中,通过反向传播学习值是向上还是向下进行的?
向上
5、π(s) 是什么?
π(s) 表示确定性策略,其中 π : S → A,即确定性策略在每个状态中选择单一动作。
6、什么是V (s)?
下面是给定的【文本内容】:
- 状态价值函数
$ V(s) $ 通常是省略了策略 $ \pi $ 的状态价值函数 $ V^\pi(s) $ 的简化写法。
它将每个状态映射到一个实数(期望回报),即:
$$
V : S \rightarrow \mathbb{R}
$$
表示在某个策略下从状态 $ s $ 出发预期获得的平均回报。
-
定义范围
状态价值是针对每个可能的状态 $ s \in S $ 定义的。 -
终端状态
终端状态的状态价值定义为 零 。
7、什么是 Q(s, a)?
Q(s, a) 是状态-动作价值函数,对于每个策略 π 都有唯一关联的状态-动作价值函数 Q<sup>π</sup>(s, a)。它是一个将每个状态-动作对映射到实数的函数 Q : S × A → R。
在离散状态和动作空间中,Q(s, a) 可以表示为大小为 |S| × |A| 的表格,每个表格条目存储特定 s, a 组合的 Q(s, a) 估计值。
根据定义,终端状态的状态-动作价值为零,即
s = 终端 ⇒ Q(s, a) := 0, ∀a。
8、什么是动态规划?
动态规划使用分治原则:
它从一个起始状态开始,该起始状态的值要通过搜索一个大的子树来确定。
它通过深入递归,找到更接近叶子节点的子状态的值,
直到到达叶子节点,递归无法继续。
9、什么是递归?
递归
递归是指一种计算方式,它展示了如何根据对后继状态再次应用函数规范得到的值来计算一个状态的值。
在算法形式上,递归会在越来越接近终止条件的状态上调用自身代码,直到到达终止条件,递归无法继续。
例如在计算树的根节点值时,会以自下而上的方式,从叶子节点到根节点递归地根据子节点的值计算父节点的值。
10、你知道一种用于确定状态值的动态规划方法吗?
知道,一种用于确定状态值的动态规划方法是 值迭代(Value Iteration,VI) 。
值迭代是一种简单的动态规划方法,通过迭代遍历状态空间来计算贝尔曼方程。
其基本思路是:迭代改进对值函数