本章节开始讲述一些新的东西—强化学习(Reinforcement Learning)内容,这一小节将是对强化学习做一个简单的介绍以及讲述大概的思路。 强化学习是一个非常广泛的话题,强化学习(Reinforcement Learning)也属于机器学习的一个拓展分支,强化学习能够在负责不确定的环境中解决问题。强化学习主要包含3个概念:环境状态、动作、奖惩制度。强化学习的目标是在回报奖惩制度中获得更多的奖励,换句话来说就是模型在训练过程中不断做出尝试,碰到正确的决策就实行奖励,对错误的决策进行惩罚,周而复始,可以在各个环境状态中做出更好的决策。
state、action、reward之间的关系
PS:agent(智能体)在进行某个任务时,首先与environment进行交互,产生新的状态state,同时环境给出奖励reward,如此循环下去,agent和environment不断交互产生更多新的数据。 众所周知的Alpha Go也可以归结为一个强化学习问题,在围棋中环境状态就是整个已经形成的棋局,行动是指强化学习模型在某个位置落子,奖惩机制就是当前这步棋获得的目数,围棋获胜靠的就是结束时总目数超过对手。强化学习很多的例子都能以围棋走子的思路进行考虑。机器学习算法大致可以分为三种:1. 监督学习(如回归,分类),2. 非监督学习(如聚类,降维),3. 强化学习。但是需要注意的地方是,强化学习不像无监督学习那样没有学习目标,也不像监督学习那样有非常明确的目标,强化学习模型只会向能够得到更多奖励的方向去学习。