强化学习不像监督学习那样有自己明确的目标,强化学习可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统,跟监督学习的标签一样。
整个强化学习系统由**智能体(Agent)、观察(Observation)、奖赏(Reward)、动作(Action)和环境(Environment)**五部分组成,系统示意图如下图所示。
我们根据环境将机器分为两种:不理解环境(model-free RL) 和理解环境的(model-base RL).
不理解环境 (Model-free learning)——对地球一无所知…
1.机器人不懂得环境是什么样子,它会通过自己在环境中不断试错,以获得行为上的改变。
2.这类模型常用的有Q-learning(Valued-based Approach,Learning an Critic),Policy Gradients(Policy-based Approach,Learning an Actor).
理解环境的 (Model-base learning