强化学习:Sarsa与Q-learning之间的关系

Sarsa算法

在给定环境的起始状态s,并且初始化策略 π ϵ − g r e e d y \pi^{\epsilon-greedy} πϵgreedy和Q值后,agent使用该策略与环境交互,产生动作a、新状态s’和奖励回馈r:
a = π ϵ − g r e e d y ( s ) s ′ , r = e n v i r o n m e n t ( a ) a=\pi^{\epsilon-greedy}(s)\\ s',r=environment(a) a=πϵgreedy(s)s,r=environment(a)
在状态s’上再根据策略 π ϵ − g r e e d y \pi^{\epsilon-greedy} πϵgreedy选择动作a’:
a ′ = π ϵ − g r e e d y ( s ′ ) a'=\pi^{\epsilon-greedy}(s') a=πϵgreedy(s)
从而生成序列信息段 &lt; s , a , r , s ′ , a ′ &gt; &lt;s,a,r,s&#x27;,a&#x27;&gt; <s,a,r,s,a>。根据下式对状态动作对 &lt; s , a &gt; &lt;s,a&gt; <s,a>的Q值进行更新:
Q ( s , a ) = Q ( s , a ) + α ( r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s&#x27;,a&#x27;)-Q(s,a)) Q(s,a)=Q(s,a)+α(r+γQ(s,a)Q(s,a))
再根据下式对策略 π \pi π进行改进:
π ( s ) = { a r g m a x a ′ ′ ( Q ( s , a ′ ′ ) ) ,             以 概 率 1 − ϵ 随 机 选 取 动 作 ,                        以 概 率 ϵ \pi(s)=\begin{cases} argmax_{a&#x27;&#x27;}(Q(s,a&#x27;&#x27;)), \ \ \ \ \ \ \ \ \ \ \ 以概率1-\epsilon \\ 随机选取动作, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 以概率\epsilon \end{cases} π(s)={argmaxa(Q(s,a)),           1ϵ,                      ϵ
再在 &lt; s ′ , a ′ &gt; &lt;s&#x27;,a&#x27;&gt; <s,a>的基础上执行以上过程,基本遵循的就是从策略改进到策略评估的不断循环。

Q-learning算法

在给定环境的起始状态s,并且初始化策略 π \pi π和Q值后,agent在该策略中引入 ϵ − g r e e d y \epsilon-greedy ϵgreedy,并与环境交互,产生动作a、新状态s’和奖励回馈r:
a = π ϵ − g r e e d y ( s ) s ′ , r = e n v i r o n m e n t ( a ) a=\pi^{\epsilon-greedy}(s)\\ s&#x27;,r=environment(a) a=πϵgreedy(s)s,r=environment(a)
再关闭 ϵ − g r e e d y \epsilon-greedy ϵgreedy,根据原策略在状态s’上时选择动作a’:
a ′ = π ( s ′ ) a&#x27;=\pi(s&#x27;) a=π(s)
从而生成序列信息段 &lt; s , a , r , s ′ , a ′ &gt; &lt;s,a,r,s&#x27;,a&#x27;&gt; <s,a,r,s,a>。根据下式对状态动作对 &lt; s , a &gt; &lt;s,a&gt; <s,a>的Q值进行更新:
Q ( s , a ) = Q ( s , a ) + α ( r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s&#x27;,a&#x27;)-Q(s,a)) Q(s,a)=Q(s,a)+α(r+γQ(s,a)Q(s,a))
再根据下式对策略 π \pi π进行改进:
π ( s ) = a r g m a x a ′ ′ ( Q ( s , a ′ ′ ) ) \pi(s)=argmax_{a&#x27;&#x27;}(Q(s,a&#x27;&#x27;)) π(s)=argmaxa(Q(s,a))
再在 &lt; s ′ , a ′ &gt; &lt;s&#x27;,a&#x27;&gt; <s,a>的基础上执行以上过程,不断循环。

关系

Q-learning算法衍生自Sarsa,但是在策略评估和策略改进时的策略并不相同。Q-learning算法的出发点是:策略上引入 ϵ − g r e e d y \epsilon-greedy ϵgreedy是为了更好地评估策略本身,而不是为了最终使用,假设对所有的Q值评估精确了,策略在探索和利用中应该是完全倾向于利用的。因此Q-learning算法在评估采样时引入 ϵ − g r e e d y \epsilon-greedy ϵgreedy,在改进策略时关闭 ϵ − g r e e d y \epsilon-greedy ϵgreedy

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值