QLearning是强化学习算法中value-based 的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
算法:
Q更新公式:
S1 为 s 对应的下一个状态有(1,2,4都是状态3对应的非负状态),随机地,我们选择其中一个座位s1.
例子:
假设我们在一个建筑物中有5个房间,这些房间由门相连,如下图所示。 我们将每个房间编号为0到4。建筑物的外部可以视为一个大房间(5)。 请注意,1号和4号门从5号房间(外部)通向建筑物。
初始化:-1不可达,0可达,100可达终点(其中状态2表示起点,5表示终点)