强化学习的种类
- model-based RL
值函数
policy gradient
actor-critic: value function plus policy gradients
为什么要有那么多的RL算法?
- 协调因素:采样高效、稳定
- 不同假设:随机或确定、连续or离散、episode or infinite horizon
- 难度不同:策略展示简单还是模型展示简单
采样高效、on-policy or off-policy
算法的采样比较:
具体算法:
强化学习的种类
值函数
policy gradient
actor-critic: value function plus policy gradients
为什么要有那么多的RL算法?
采样高效、on-policy or off-policy
算法的采样比较:
具体算法: