目录
2.1 基本概念
强化学习主要就是基本概念比较多,容易混淆,不容易记住,主要说一下一些基本的概念。
强化学习可以看做成一个马尔可夫决策过程(MDP),一个MDP通常由状态空间、动作空间、奖励函数、状态转移函数等组成。
下面以小例子来谈一下几个概念:
智能体:强化学习的主体被称为智能体,例如超级玛丽;
环境:环境指的是智能体交互的对象,可以抽象地理解为交互过程中的规则或机理。在超级玛丽的例子中,游戏程序就是环境;
状态:超级玛丽面对的环境就是此时的状态;
状态空间:状态空间是指所有可能存在状态的集合,记为。状态空间可以是有限的,也可以是无限的;可以是离散的,也可以是连续的。
动作:超级玛丽面对上述状态所采取的行动称为动作,可能是上、左和右;
动作空间:动作空间是指所有可能动作的集合记为, {上,左,右}。
奖励:智能体在执行一个动作后,与环境交互,环境返回给智能体一个数值。奖励往往由我们自己来定义,奖励定义得好坏非常影响强化学习的结果。
状态转移:智能体由时刻的状态转移到下一个时刻的状态;状态转移可能是随机的,而且强化学习通常假设状态转移是随机的,随机性来自于环境。
状态转移函数: