【RL】3.基于表格方法求解RL

本文介绍了强化学习中基于表格方法的Q学习和Sarsa算法。通过Q-Table的概念,阐述了有限步和无限步Markov Chain的Q值计算,并以Cliff Walker游戏为例说明Q表的建立。接着,详细讲解了时序差分学习的在线策略(Sarsa)和离线策略(Q-Learning),包括各自的更新公式和算法流程。
摘要由CSDN通过智能技术生成

RL-Ch3-基于表格方法求解RL

本文不太完善,待寻到时间再细细修改。

前情回顾

MDP为(S,A,P,R, γ \gamma γ)五元组,在上一状态 s t s_t st采取动作 a t a_t at,会以一定的概率分布p进入下一状态 s t + 1 s_{t+1} st+1,同时产生一定的收益 r t r_t rt

在这里插入图片描述

图1 MDP树状图

与环境交互过程会学习到P(transimision Probability matrix)函数 p ( s t + 1 , r t ∣ s t , a t ) p(s_{t+1},r_t|s_t,a_t) p(st+1,rtst,at)和R(Reward)函数 r ( s t , a t ) r(s_t,a_t) r(st,at),以此作为环境的描述。若事先通过虚拟环境获知了P和R函数,再应用于现实进行决策,则称这个系统是Model-Based的,反之则称该系统是Model-Free的。

  • Model-Based:P/R函数已知(图1中的黑色主体图+红色部分)
  • Model-Free:P/R函数未知(图1中的黑色主体图+绿色部分)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值