强化学习之——Q-Learning(基础部分)

最新推荐文章于 2024-05-07 23:44:05 发布

无心留踪迹

最新推荐文章于 2024-05-07 23:44:05 发布

阅读量1.7k

点赞数 2

分类专栏：强化学习文章标签：算法强化学习

本文链接：https://blog.csdn.net/qq_39366151/article/details/115893822

版权

状态转移概率：从掌握到放弃前几篇介绍了基于马尔可夫决策的强化学习框架，我们发现解决的问题有一个特点，我们是知道环境运转的细节的，具体就是我们知道状态转移概率，也就是P(St+1∣St,at)P(S_{t+1}|S_t,a_t)P(St+1∣St,at)。对于蛇棋这个游戏，我们可以看到前方是上升梯子还是下降梯子，然后选择对应的投掷手法来接近或者避开，相当于站在上帝视角。但是现实情况下，很多时候我们不知道这个状态转移概率。一般，我们将知道状态转移概率的问题称为”基于模型“ 的问题（Model-ba

摘要由CSDN通过智能技术生成

状态转移概率：从掌握到放弃

前几篇介绍了基于马尔可夫决策的强化学习框架，我们发现解决的问题有一个特点，我们是知道环境运转的细节的，具体就是我们知道状态转移概率，也就是 $P(S_{t+1}|S_t,a_t)$ 。对于蛇棋这个游戏，我们可以看到前方是上升梯子还是下降梯子，然后选择对应的投掷手法来接近或者避开，相当于站在上帝视角。
但是现实情况下，很多时候我们不知道这个状态转移概率。一般，我们将知道状态转移概率的问题称为”基于模型“ 的问题（Model-based Problem），将不知道状态转移概率的问题称为
“无模型”的问题（Model-free Problem）。
以进阶版蛇棋为例，在新版蛇棋游戏中，我们不再对玩家现实棋盘信息，也就是你看不到梯子了，同时也不现实每次投掷之后骰子的数目，每次玩家选择完投掷手法后，将直接得到棋子所在的下一个位置，而不会知道其他任何信息。
如果知道状态转移概率，我们可以通过前面介绍的学习算法，迭代执行策略评估和策略改进得到最优的策略。而对于上面的改进版蛇棋，我们不知道状态转移概率，无法直接进行策略评估，也就是不能用Bellman公式进行值函数的更新。这个时候需要用别的方法进行策略评估了。
我们想到了强化学习的特点：不断试错，也就是通过尝试与环境交互来解决策略评估的问题。我们给出新算法的大体思路：

确定一个初始策略

用这个策略进行游戏，得到一些游戏序列（Episode）：{ $KaTeX parse error: Expected 'EOF', got '}' at position 28: \dotsa_2,...,s_n,a_n}̲$

游戏达到了一定轮数后，我们就认为这些序列代表了当前策略与环境交互的表现，聚合这些序列，得到状态对应的值函数（用到大数定律思想）。

得到了值函数，就可以进行策略评估，也就是用策略迭代+策略改进进行策略的更新了。如果策略更新完成就结束，否则返回2。

问题的关键在于：

如何得到这些游戏序列
如何使用得到的序列进行策略评估

蒙特卡罗方法

蒙特卡罗方法通过随机采样来估计期望值
假设我们通过一些方法，从状态 $s$ 和行动 $a$ 开始不断与环境交互，得到了大量的样本序列：
${ s_t,a_t,s_{t+1}^i,a_{t+1}^i,s_{t+2}^i,a_{t+2}^i,... \}_{i=1}^N$
对应的回报序列为： ${ r_t,r_{t+1}^i,r_{t+2}^i\}_{i=1}^N$
我们可以通过这些采集得到的样本序列来逼近真实的期望值（大数定理思想):
$\frac{1}{N}\sum_{t=1}^N\sum_{k=0}^∞γ^kr_{t+k}$

最低0.47元/天解锁文章

无心留踪迹

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
强化学习之——Q-Learning(基础部分)

状态转移概率：从掌握到放弃前几篇介绍了基于马尔可夫决策的强化学习框架，我们发现解决的问题有一个特点，我们是知道环境运转的细节的，具体就是我们知道状态转移概率，也就是P(St+1∣St,at)P(S_{t+1}|S_t,a_t)P(St+1∣St,at)。对于蛇棋这个游戏，我们可以看到前方是上升梯子还是下降梯子，然后选择对应的投掷手法来接近或者避开，相当于站在上帝视角。但是现实情况下，很多时候我们不知道这个状态转移概率。一般，我们将知道状态转移概率的问题称为”基于模型“ 的问题（Model-ba
复制链接

扫一扫

专栏目录