在线策略(on-policy)算法和离线策略(off-policy)算法的共同点为:智能体在训练过程中可以不断和环境交互,得到新的反馈数据。
区别主要在于在线策略算法会直接使用这些反馈数据,而离线策略算法会先将数据存入经验回放池中,需要时再采样。
离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。
离线强化学习在从经验池中回放经验后学习到某策略但不更新,而离线策略则会更新。