【RL】3.基于表格方法求解RL

最新推荐文章于 2022-10-30 20:23:42 发布

BevnWu

最新推荐文章于 2022-10-30 20:23:42 发布

阅读量207

点赞数

分类专栏：强化学习_BW 文章标签：强化学习

BevanWu所有

本文链接：https://blog.csdn.net/qq_41407979/article/details/109246331

版权

本文介绍了强化学习中基于表格方法的Q学习和Sarsa算法。通过Q-Table的概念，阐述了有限步和无限步Markov Chain的Q值计算，并以Cliff Walker游戏为例说明Q表的建立。接着，详细讲解了时序差分学习的在线策略（Sarsa）和离线策略（Q-Learning），包括各自的更新公式和算法流程。

摘要由CSDN通过智能技术生成

RL-Ch3-基于表格方法求解RL

本文不太完善，待寻到时间再细细修改。

前情回顾

MDP为(S,A,P,R, $\gamma$ )五元组，在上一状态 $s_t$ 采取动作 $a_t$ ，会以一定的概率分布p进入下一状态 $s_{t+1}$ ，同时产生一定的收益 $r_t$ 。

在这里插入图片描述

图1 MDP树状图

与环境交互过程会学习到P(transimision Probability matrix)函数 $p(s_{t+1},r_t|s_t,a_t)$ 和R(Reward)函数 $r(s_t,a_t)$ ，以此作为环境的描述。若事先通过虚拟环境获知了P和R函数，再应用于现实进行决策，则称这个系统是Model-Based的，反之则称该系统是Model-Free的。

Model-Based：P/R函数已知（图1中的黑色主体图+红色部分）

Model-Free：P/R函数未知（图1中的黑色主体图+绿色部分）

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。