本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。
时序差分TD
首先,啥是时序差分学习?
时序差分学习可以直接从与环境互动的经验中学习策略,无需构建关于环境动态特性的模型,也就是常说的model-free方法。像上文的动态规划方法就需要已知环境的动态特性,属于model-based方法。
时序差分学习利用经验来解决预测。也就是说需要根据给定策略学习来的一些经验数据,来对状态价值函数 V π V_{\pi} Vπ 进行更新。
本文介绍两种经典的时序差分学习方法,Q-learning和Sarsa。
Q-Learning
Q-Learning是一种off-policy的算法,它可以学习当前的数据也可以学习过去的数据。
如何学习?
首先是有个Q-table,通过迭代来对表进行更新。Q-learning的核心在于它有一张Q表格,所有的value更新都是在这张表格上进行的。表格储存了历史的数据,所以Q-learning不仅可以学习当前的数据,也可以学习过去经历的数据。
举个例子
假设现在有3个状态,每个状态有3个动作,假设动作 a 1 a_1 a1 对应的奖励为 +1, a 2 a_2 a2 对应的奖励为 -1, a 3 a_3 a3 对应的奖励为0。那Q表可以用矩阵来表示。
首先是初始化Q表,每个Q值也就是动作价值初始为0。
第一步:决策。
假设初始状态是 s 1 s_1 s1。根据 ϵ − g r e e d y \epsilon-greedy ϵ−greedy 策略选取动作,由于初始Q值都是0,所以这时候就是随机选取,假设选择了动作 a 1 a_1 a1,进入到 s 2 s_2 s2,奖励是+1,此时根据更新公式:
Q ( s , a ) ← Q ( s