一. 强化学习
什么是强化学习,首先我们要了解强化学习的几个重要概念,也是强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。
说简单一点,强化学习其实就是实现了智能体自发的与环境进行交互并且达到我们所希望的状态。这个过程就会产生很多动作,下一步动作是依靠上一步动作以及当前状态,上一步状态,以及实施动作之后的奖励所决定的。
在周志华的西瓜书中说到一点:
智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给智能体一个奖赏。
二. Q-learning算法
1. 简介
Q-learning算法是强化学习的一个算法模型。接下来详细介绍下这个算法。
动作值函数(或称「Q 函数」)有两个输入:「状态」和「动作」。它将返回在该状态下执行该动作的未来奖励期望。