强化学习算法分类
根据行为选择依据进行分类
- 通过价值选行为:
- Q Learning
- Sarsa
- Deep Q Network
- 直接选行为:
- Policy Gradients
- 想象环境并从中学习:
- Model based RL
根据理解环境与否进行分类
- 不理解环境(Model-Free RL):
- Q Learning
- Sarsa
- Policy Gradients
- 理解环境(Model-Based RL):
- Q Learning
- Sarsa
- Policy Gradients
- 不理解环境(Model-Free RL): 根据真实环境反馈进行学习
- 理解环境(Model-Based RL): 根据模拟环境反馈进行学习, 并将策略运用至真实环境
根据学习基于方式进行分类
- 基于概率(Policy-Based RL):
- Policy Gradients
- 基于价值(Value-Based RL):
- Q Learning
- Sarsa
- 基于概率(Policy-Based RL): 各种行为都有可能被选择, 概率不同, 可以对连续分布的行为进行选择
- 基于价值(Value-Based RL): 选择价值最高的价值, 无法对连续分布的行为进行选择
- 结合概率和价值的算法: Actor-Critic
根据更新方式进行分类
- 回合更新(Monte-Carlo Update):
- 基础版 Policy Gradients
- Monte-Carlo Learning
- 单步更新(Temporal-Difference Update):
- Q Learning
- Sarsa
- 升级版 Policy Gradients
- 回合更新(Monte-Carlo Update): 从游戏开始到结束更新
- 单步更新(Temporal-Difference Update): 游戏开始后每一步可以选择更新
根据是否亲自操作进行分类
- 在线学习(On-Policy):
- Sarsa
- Saras(λ)
- 离线学习(Off-Policy):
- Q Learning
- Deep Q Network
- 在线学习(On-Policy): 模型根据亲自操作进行学习
- 离线学习(Off-Policy): 模型可以根据观察已有的操作过程进行学习