1. 是否理解环境
1.1 不理解环境(Model-Free RL)
不理解环境,也不理解环境给的反馈
1.2 理解环境(Model-Based RL)
通过过往经验,理解环境,理解环境的反馈,构建虚拟世界(想象力,预判断反馈,执行下一步)
2. 基于XX
2.1 基于概率(Policy-Based RL)
基于感知,生成事件概率,根据概率采取行动。(任何行动都有可能)
可以适用于连续的
ex:policy gradients
2.2 基于价值 (Value-based RL)
基于感知,生成价值,只选择价值最高的。(只有价值最高的才会被选)
不适用于连续的
ex: Q learning, Sarsa
2.3 基于概率与基于价值相结合(Actor-Critic)
Actor基于概率生成动作,Critic会对各个动作给出价值
3. 更新频率
3.1 回合更新(Monte-Carlo update)
游戏开始-游戏进程-游戏结束-更新行为准则
一般用于阶段性任务
ex:基础版Policy Gradients, Monte-Carlo Learning
3.1 单步更新 (Temporal-Difference update)
游戏开始-游戏进程(每个步骤进行更新)-游戏结束
可以进行连续学习
ex