八、model-based 强化学习
基于模型的强化学习:
适用于连续变量的状态和行为空间
假设状态转换和奖励之间是条件独立的,建立环境模型 < P η , R η > <P_\eta,R_\eta> <Pη,Rη>
S t + 1 ∼ P η ( S t + 1 ∣ S t , A t ) R t + 1 = R η ( R t + 1 ∣ S t , A t ) \begin{array}{l}S_{t+1} \sim \mathcal{P}_{\eta}\left(S_{t+1} \mid S_{t}, A_{t}\right) \\ R_{t+1}=\mathcal{R}_{\eta}\left(R_{t+1} \mid S_{t}, A_{t}\right)\end{array} St+1∼Pη(St+1∣St,At)Rt+1=Rη(Rt+1∣St,At)
在学习模型时,不是以Episode为最小学习单位的,而是以时间步(time-step)为单位,一次学习一个状态转换
根据模型进行采样得到虚拟序列然后通过(MC,Sarsa,Q-learning)优化价值函数
缺点:
由于基于预测的模型,所以得到的策略受模型不确定的影响,使用一个近似的模型去进行价值函数或策略函数的学习时,又会引入一次近似,双重近似可能不会收敛。如果模型不准确,那么采样的策略也会不是最优的。
解决方案:
为model设置一个模型的置信度,当模型准确度低或者当置信度低时,使用model-freed的方式
Dyna:
从与现实交互的序列中学习模型;
从现实采样序列和模拟采样序列中优化价值函数或者策略;
这个算法赋予了个体在与实际环境进行交互式时有一段时间用来思考的能力。其中的步骤:a,b,c,d,和e都是从实际经历中学习,d过程是学习价值函数,e过程是学习模型。
在f步,给以个体一定时间(或次数)的思考。在思考环节,个体将使用模型,在之前观测过的状态空间中随机采样一个状态,同时从这个状态下曾经使用过的行为中随机选择一个行为,将两者带入模型得到新的状态和奖励,依据这个来再次更新行为价值和函数。
基于模拟的搜索 (Simulation-Based Search):
是前向搜索的一种形式,从当前时刻开始,使用基于模拟采样的规划,构建一个关注与短期未来的前向搜索树,把这个搜索树作为一个学习资源,然后使用Model Free的强化学习来寻找最优策略。
简单蒙特卡罗探索
蒙特卡罗树探索
九、探索与利用
探索方法:
衰减的 ϵ − \epsilon- ϵ−贪婪探索:
随着时间的推移,采用随机行为的概率 ε 越来越小
ϵ
t
=
min
{
1
,
c
∣
A
∣
d
2
t
}
,
d
=
min
a
∣
Δ
a
>
0
Δ
i
∈
(
0
,
1
]
,
c
>
0
\epsilon_{t}=\min \left\{1, \frac{c|A|}{d^{2} t}\right\}, \quad d=\min _{a \mid \Delta_{a}>0} \Delta_{i} \in(0,1], c>0
ϵt=min{1,d2tc∣A∣},d=a∣Δa>0minΔi∈(0,1],c>0
不确定行为优先探索:
当个体不清楚一个行为的价值时,个体有较高的几率选择该行为。具体在实现时可以使用乐观初始估计、可信区间上限以及概率匹配三种形式。
乐观估计:
乐观初始估计给行为空间中的每一个行为在初始时赋予一个足够高的价值,在选择行为时 使用完全贪婪的探索方法,使用递增式的蒙特卡罗评估来更新价值
置信区间上限
概率匹配:
通过个体与环境 的实际交互的历史信息 ht 估计行为空间中的每一个行为是最优行为的概率,然后根据这个概率 来采样后续行为
基于信息价值的探索