前面我们介绍的机器学习算法都属于人工喂给机器数据,然后机器从这些数据中学得模型。而我们人类的学习过程并不是这样,人类通过自身的感官感知环境,而后从环境中获得经验、知识,因此单纯地依靠前面所介绍的方法并不能实现通用人工智能。那么有没有办法使得机器也能自动地不断从周围环境中获得经验或‘知识’呢?阿兰。图灵曾提出过这样的设想“除了试图去建立一个模拟成人大脑的程序外,为什么不试图建立一个可以模拟小孩大脑的程序呢?如果他接受适当的教育,就会获得成人的大脑。”基于这个设想,研究者们提出了强化学习(Reinforcement Learning,又译为增强学习)的概念。本文主要对强化学习的基本概念与方法进行介绍。
目录
一、什么是强化学习(RL)?
二、强化学习的类型
三、常用的强化学习算法
一、什么是强化学习?
强化学习是从一种让agent(智能主体)自动连续做出决策的机器学习方法。其原理可归纳如下:
在强化学习中,学习者是一个能够自动做出决策的agent,它通过感知自身所处的状态(state)与环境来产生动作(action),而不同状态下的不同动作会带给agent不同的奖赏(reward)。强化学习的目标就是通过一系列的试错后找到一种最优的策略(policy),使得经过一系列的动作(actions)后,所获得的总的奖赏(reward)最大。
为方便理解,可参考下面这张图
强化学习的Agent主要由三部分构成,分别是:感受器用来感知当前所处状态(State);决策模型f根据当前状态下不同动作(Action)的奖赏(Reward)来选择策略与环境交互;动作器执行这些动作;
基于上面的介绍,我们可以把一个强化学习的过程抽象为以下数学代数的形式
l 一系列agent的状态