RL-Ch3-基于表格方法求解RL
本文不太完善,待寻到时间再细细修改。
前情回顾
MDP为(S,A,P,R, γ \gamma γ)五元组,在上一状态 s t s_t st采取动作 a t a_t at,会以一定的概率分布p进入下一状态 s t + 1 s_{t+1} st+1,同时产生一定的收益 r t r_t rt。
图1 MDP树状图
与环境交互过程会学习到P(transimision Probability matrix)函数 p ( s t + 1 , r t ∣ s t , a t ) p(s_{t+1},r_t|s_t,a_t) p(st+1,rt∣st,at)和R(Reward)函数 r ( s t , a t ) r(s_t,a_t) r(st,at),以此作为环境的描述。若事先通过虚拟环境获知了P和R函数,再应用于现实进行决策,则称这个系统是Model-Based的,反之则称该系统是Model-Free的。
- Model-Based:P/R函数已知(图1中的黑色主体图+红色部分)
- Model-Free:P/R函数未知(图1中的黑色主体图+绿色部分)