强化学习(一)
什么是强化学习
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习算法类别
通过自己对强化学习算法的理解大至可分为
基于模型与不基于模型的两种,我们着重讲不基于模型的算法。分为Q_Learning家族和Policy Optimization家族,就是值策略和梯度策略。
经典的DQN,PG,两个不同的算法,前者处理离散的动作,后者处理连续的动作。
关于算法设计到的理论公式,这个博主写的很清楚,我主要是讲算法的实现,算法过程。