1. 强化学习问题
强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过与环境的交互来学习如何采取行动,以最大化累积奖励。
-
奖励(Reward R_t): 标量反馈信号(Rt),表示智能体在每个时间步的表现。目标是最大化累积奖励。
-
智能体-环境互动:
- 智能体:做决策并采取行动
- 环境:提供观察和奖励
-
状态:
- 环境状态:环境使用的内部信息
- 智能体状态:智能体用于决策的信息
- 信息状态(马尔可夫状态):包含历史中所有有用信息
-
可观察性:
- 完全可观察:智能体直接观察环境状态
- 部分可观察:智能体间接观察环境状态
2. RL agent的主要组成
RL agent 可能包含以下一个或多个:
- 策略:agent的行为函数
- 价值函数: 评估每个动作或状态的好坏
- 模型:agent的环境表示
策略policy
策略是智能体的行为函数,从状态state到行为的对应:
- 确定性的策略 : a = π ( s ) a=\pi(s) a=π(s)
- 随机的策略: π ( a ∣ s ) = P ( A t = a ∣ S t = s ] \pi(a|s)=P(A_t=a|S_t=s] π(a∣s)=P(At=a∣St=s]
价值函数 value
价值函数是对未来奖励的预测,用来评估状态的好坏
v
π
(
s
)
=
E
[
R
t
+
γ
R
t
+
1
+
γ
2
R
t
+
2
+
.
.
.
∣
S
t
=
s
]
v_{\pi} (s) = E[R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ...| S_t=s]
vπ(s)=E[Rt+γRt+1+γ2Rt+2+...∣St=s]
?如何获取未来状态的奖励
R
t
+
1
R_{t+1}
Rt+1
第三章中DP动态规划是假设环境已知,对应的奖励也已知。
第四章中model-free 蒙特卡洛中 要等整个回合完成往前更新value值,因此价值是通过完成的回合采样的真实回报
G
t
=
R
t
+
γ
R
t
+
1
+
γ
2
R
t
+
2
+
.
.
.
G_t=R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ...
Gt=Rt+γRt+1+γ2Rt+2+...进行预估的。
模型model
模型预测未来环境的状态:
-
P
P
P 预测 下个状态state
P s s ′ a = P ( S t + 1 = s ′ ∣ S t = s , A t = a ] P_{ss'}^a=P(S_{t+1}=s'|S_t=s,A_t=a] Pss′a=P(St+1=s′∣St=s,At=a] -
R
R
R预测下一个即时奖励
R s a = E ( R t + 1 ∣ S t = s , A t = a ] R_{s}^a=E(R_{t+1}|S_t=s,A_t=a] Rsa=E(Rt+1∣St=s,At=a]
但在实际问题中model不是必须的,有时会有无模型的问题
3. RL agent的分类
- 基于价值函数的(value-based)
- 基于策略的(value-based)
- 演员-评论家 (actor-critic)-- policy+value
- 无模型 vs. 基于模型
model free:我们不直接对环境状态转移进行建模,而是直接基于value或者policy进行动作
4. 强化学习中的关键问题:学习 vs. 规划
学习vs规划:
强化学习:
- 环境未知,
- 智能体通过交互学习
- 提升策略
规划 (planning):
- 环境模型已知
- 智能体计算最优策略
探索 vs. 利用:
- 探索:收集环境信息
- 利用:基于当前知识最大化奖励
预测 vs. 控制:
- 预测:评估给定策略的预期回报
- 控制: 找到最大化回报的最优策略