强化学习入门介绍
机器学习一般分为三类,监督学习,强化学习和无监督学习。强化学习的应用场景有智能控制(e.g. 如机械臂、机器人的动作控制)以及 AI打电动(i.e. 用强化学习打游戏并且超过人类水平)。强化学习不同于监督学习,他是一种基于reward的学习方式。强化学习的每个步长(time step)都是包含四样东西,首先是初始观测值(observation 1),基于observation 1所采取的动作(action),基于初始观测值以及所采取的动作得到一个reward,最后一个就是做完动作以后的新观测值(observation 2).
以上两幅图片很好的描述了强化学习的学习方式,图中的agent就是黄色机器人,而迷宫就是environment,我们的目标就是让机器人学会在迷宫中吃到尽可能多的豆子。在每个time step,我们的observation 1就是迷宫中所处的位置以及怪物想对于机器人的位置,action就是你想走的方向(比如向前,向左,向右,或者向后),做完这个动作后你会得到一个奖励以及observation 2. 为了让吃尽可能多的豆子,你就需要在到达有豆子的位置给机器人一个高的奖励,