博主的github链接,欢迎大家来访问~:https://github.com/Sh-Zh-7
强化学习经典算法实现地址:https://github.com/Sh-Zh-7/reinforce-learning-impl
1. 什么是on-policy,什么是off-policy
其实这个概念我们之前已经提到了,这里不妨再提一下:
- on-policy就是获取数据的动作和最终策略的动作是一致的,比如Sarsa。
- off-policy就是获取数据的动作和最终策略的动作不一致,比如QLearning。
从这种定义我们也可以得知:我们的强化学习流程中涉及到两个关键流程:一个是选择用来获取数据的动作,另一个则是我们最终用来选择动作的策略。
2. Behavior policy和Target policy
on-policy其实挺符合我们直觉的,问题是off-policy为什么要有两种策略?
先给个定义好了:
- 用来与环境互动产生数据的策略,即在训练过程中做决策。这种策略叫做behavior policy。
- 而目标策略在行为策略产生的数据中不断学习、优化,即学习训练完毕后拿去应用的策略。这种策略叫做target policy。
强 化学习方面主要有两个问题,一个叫做exploitation,另一个叫做exploration。我们获得数