从SARSA算法到Q-learning with ϵ-greedy Exploration算法

最新推荐文章于 2024-07-20 08:00:00 发布

从流域到海域

最新推荐文章于 2024-07-20 08:00:00 发布

阅读量2.6k

点赞数

分类专栏：强化学习文章标签： SARSA Q-Learning epsilon-greedy policy Reinforcement Learing

本文链接：https://blog.csdn.net/Solo95/article/details/102762027

版权

强化学习专栏收录该内容

26 篇文章 60 订阅

订阅专栏

这篇博文是Model-Free Control的一部分，事实上SARSA和Q-learning with ϵ-greedy Exploration都是不依赖模型的控制的一部分，如果你想要全面的了解它们，建议阅读原文。

SARSA Algorithm

SARSA代表state，action，reward，next state，action taken in next state，算法在每次采样到该五元组时更新，所以得名SARSA。

$1:\ Set$ Initial $\epsilon$ -greedy policy $\pi,t=0$ , initial state $s_t=s_0$
$2:\ Take \ a_t \sim \pi(s_t)$ // Sample action from policy
$3:\ Observe \ (r_t, s_{t+1})$
$4:\ loop$
$5:\ \quad Take$ action $a_{t+1}\sim \pi(s_{t+1})$
$6:\ \quad Observe \ (r_{t+1},s_{t+2})$
$7:\ \quad Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t))$
$8:\ \quad \pi(s_t) = \mathop{argmax} \ Q(s_t,a) w.prob\ 1-\epsilon, else \ random$
$9:\ t=t+1$
$\ loop$
在这里插入图片描述

Q-learing: Learning the Optimal State-Action Value

我们能在不知道 $\pi^*$ 的情况下估计最佳策略 $\pi^*$ 的价值吗？

可以。使用Q-learning。

核心思想: 维护state-action Q值的估计并且使用它来bootstrap最佳未来动作的的价值。

回顾SARSA
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha((r_t+\gamma Q(s_{t+1},a_{t+1}))-Q(s_t,a_t))$

Q-learning
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha((r_t+\gamma \mathop{max}\limits_{a'}Q(s_{t+1},a')-Q(s_t,a_t)))$

Off-Policy Control Using Q-learning

在上一节中假定了有某个策略 $\pi_b$ 可以用来执行
$\pi_b$ 决定了实际获得的回报
现在在来考虑如何提升行为策略(policy improvement)
使行为策略 $\pi_b$ 是对(w.r.t)当前的最佳 $Q (s, a)$ 估计的- $\epsilon$ -greedy策略

Q-learning with $\epsilon$ -greedy Exploration

$1:\ Intialize \ Q(s,a), \forall s \in S, a \in A \ t=0,$ initial state $s_t=s_0$
$2:\ Set \ \pi_b$ to be $\epsilon$ -greedy w.r.t. Q$
$3:\ loop$
$4:\ \quad Take \ a_t \sim\pi_b(s_t)$ // simple action from policy
$5:\ \quad Observe \ (r_t, s_{t+1})$
$6:\ \quad Update \ Q$ given $s_t,a_t,r_t,s_{t+1})$
$7:\ \quad Q(s_r,a_r) \leftarrow Q(s_t,r_t)+\alpha(r_t+\gamma \mathop{max}\limits_{a}Q(s_{t1},a)-Q(s_t,a_t))$
$8:\ \quad Perform$ policy impovement: $\ \pi_b$ to be $\epsilon$ -greedy w.r.t Q
$9:\ \quad t=t+1$
$\ loop$

如何初始化 $Q$ 重要吗？
无论怎样初始化 $Q$ (设为0，随机初始化)都会收敛到正确值，但是在实际应用上非常重要，以最优化初始化形式初始化它非常有帮助。会在exploration细讲这一点。

例题

在这里插入图片描述

从流域到海域

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从SARSA算法到Q-learning with ϵ-greedy Exploration算法

SARSA AlgorithmSARSA代表state，action，reward，next state，action taken in next state，算法在每次采样到该五元组时更新，所以得名SARSA。1: Set1:\ Set1: Set Initial ϵ\epsilonϵ-greedy policy π,t=0\pi,t=0π,t=0, initial ...
复制链接

扫一扫