强化学习入门4—Q-learning和Sarsa

本文介绍了时序差分学习中的Q-learning和Sarsa算法,Q-learning是off-policy,通过Q-table迭代更新,适用于离散动作问题;Sarsa是on-policy,更新时考虑实际选择的动作,适合连续动作问题。两者在更新策略上有关键差异,Q-learning取最大Q值,Sarsa考虑实际动作。
摘要由CSDN通过智能技术生成


本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。

时序差分TD

首先,啥是时序差分学习?

时序差分学习可以直接从与环境互动的经验中学习策略,无需构建关于环境动态特性的模型,也就是常说的model-free方法。像上文的动态规划方法就需要已知环境的动态特性,属于model-based方法。

时序差分学习利用经验来解决预测。也就是说需要根据给定策略学习来的一些经验数据,来对状态价值函数 V π V_{\pi} Vπ 进行更新。

本文介绍两种经典的时序差分学习方法,Q-learning和Sarsa。

Q-Learning

Q-Learning是一种off-policy的算法,它可以学习当前的数据也可以学习过去的数据。

如何学习?

首先是有个Q-table,通过迭代来对表进行更新。Q-learning的核心在于它有一张Q表格,所有的value更新都是在这张表格上进行的。表格储存了历史的数据,所以Q-learning不仅可以学习当前的数据,也可以学习过去经历的数据。

举个例子

假设现在有3个状态,每个状态有3个动作,假设动作 a 1 a_1 a1 对应的奖励为 +1, a 2 a_2 a2 对应的奖励为 -1, a 3 a_3 a3 对应的奖励为0。那Q表可以用矩阵来表示。

首先是初始化Q表,每个Q值也就是动作价值初始为0。
在这里插入图片描述
第一步:决策。

假设初始状态是 s 1 s_1 s1。根据 ϵ − g r e e d y \epsilon-greedy ϵgreedy 策略选取动作,由于初始Q值都是0,所以这时候就是随机选取,假设选择了动作 a 1 a_1 a1,进入到 s 2 s_2 s2,奖励是+1,此时根据更新公式:
Q ( s , a ) ← Q ( s

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值