Reinforcement Learning Exercise 5.6

本文介绍了在使用行为策略b生成回报的情况下,状态值V(s)的公式(5.6)对于动作值Q(s,a)的类似公式。给出了从初始状态St和初始动作At开始,后续状态-动作轨迹的概率表达式,以及目标策略和行为策略下轨迹相对概率的计算。进而推导出动作值Qπ(s,a)的期望是根据重要性采样比例ρt+1:T-1和回报Gt的期望。最后分别阐述了普通重要性采样和加权重要性采样的Q(s,a)计算方式。" 136335116,17243493,使用预训练transformer模型进行文本分类实战,"['自然语言处理', '深度学习', '人工智能', '语言模型', 'Python']
摘要由CSDN通过智能技术生成

Exercise 5.6 What is the equation analogous to (5.6) for action values Q ( s , a ) Q(s, a) Q(s,a) instead ofstate values V ( s ) V(s) V(s), again given returns generated using b b b?

Given a starting state S t S_t St, starting action A t A_t At, the probability of the subsequent state-action trajectory, S t + 1 , A t + 1 , ⋯   , S T S_{t+1}, A_{t+1}, \cdots , S_T St+1,At+1,,ST occurring under any policy π \pi π is
P r ( S t + 1 , A t + 1 , ⋯   , S T − 1 , A T − 1 , S T ∣ S t , A t : T − 1 ∼ π ) = p ( S t + 1 ∣ S t , A t ) π ( A t + 1 ∣ S t + 1 ) ⋯ p ( S T − 1 ∣ S T − 2 , A T − 2 ) π ( A T − 1 ∣ S T − 1 ) p ( S T ∣ S T − 1 , A T − 1 ) = ∏ k = t T − 1 π ( A k ∣ S k ) p ( S k + 1 ∣ S k , A k ) π ( A t ∣ S t ) \begin{aligned} &Pr(S_{t+1}, A_{t+1},\cdots, S_{T-1}, A_{T-1}, S_T \mid S_t, A_{t:T-1}\sim \pi)\\ &\qquad = p(S_{t+1} \mid S_t, A_t) \pi(A_{t+1}|S_{t+1}) \cdots p(S_{T-1} \mid S_{T-2}, A_{T-2})\pi(A_{T-1} \mid S_{T-1}) p(S_T \mid S_{T-1}, A_{T-1})\\ &\qquad =\frac {\prod_{k=t}^{T - 1} \pi(A_k \mid S_k)p(S_{k+1}\mid S_k, A_k)} {\pi(A_t \mid S_t)} \end{aligned} Pr(St+1,At+1,,ST1,AT1,STSt,At:T1π)=p(S

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值