本文档记录了《机器学习》第 16 章强化学习相关内容
任务与奖赏
形式化表示
- 环境 E=⟨X,A,P,R⟩
- 状态 x∈X
- 动作 a∈A
- 状态转移概率 P:X×A×X↦ℝ
奖赏 R:X×A×X↦ℝ
一些应用中奖赏函数可能仅与状态转移有关: R:X×X↦ℝ
“机器”与“环境”的界限
在环境中状态的转移、奖赏的返回是不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。
策略(Policy)
- 确定性策略: π:X↦A
- 随机性策略: π:X×A↦ℝ ,有 ∑aπ(x,a)=1
奖赏
- T 步累计奖赏:
?[1T∑Tt=1rt] - γ 折扣累计奖赏: ?[∑+∞t=0γtrt+1]
K -摇臂赌博机
离散状态空间、离散动作空间
最大化单步奖赏
- 需要知道每个动作带来的奖赏
- 执行最大奖赏的动作
获知每个摇臂的期望奖赏
仅探索
将所有尝试机会平均分配给每个摇臂,以每个摇臂各自的平均吐币概率为奖赏期望的近似估计。
可以很好地估计每个摇臂的奖赏,但由于探索的存在常常会失去选择最优摇臂的机会。
仅利用
选取目前最优(平均奖赏最大)的摇臂。很难对摇臂的期望奖赏有一个较好的估计,从而选不到最优摇臂。
ϵ
-贪心
基于 ϵ 的概率对探索和利用进行折中
第 k 个摇臂第
Q0(k)=0
Qn(k)=1n((n−1)×Qn−1(k)+vn)
Qn(k)=Qn−1(k)+1n(vn−Qn−1(k))
如何确定 ϵ
- 摇臂奖赏不确定性较大,则选用较大的 ϵ
- 摇臂奖赏不确定性较小,则选用较小的 ϵ
Softmax
基于当前已知的摇臂平均奖赏对探索和利用进行折中
摇臂概率的分配
基于 Boltzmann 分布
P(k)=eQ(k)τΣKi=1Q(i)τ
有模型学习
假定任务对应的马尔科夫决策过程四元组 E=⟨X,A,P,R⟩ 均已知,即机器已对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况,从状态 x 执行动作
策略评估
状态值函数 V(⋅) :指定状态上的累积奖赏
T 步累积奖赏
VπT(x)=?π[1T∑t=1Trt|x0=x]
VπT(x)=∑a∈Aπ(x,a)∑x′∈XPax→x′(1TRax→x′+T−1TVπT−1(x′