DRL(二)—— RL简介

本文介绍了RL(强化学习)的基本结构,包括Model-Based RL,并讨论了模型预测与样本生成的成本问题。文章提到,在确定环境中,deterministic policy效果良好,但在stochastic environment中可能不足。此外,文章提到了policy gradient方法和DQN,并指出当前内容主要是对先前RL知识的复习,涉及Q()和V()的定义以及不同算法的权衡选择。
摘要由CSDN通过智能技术生成

RL Structure

RL中基本包括三个部分,如下图:
在这里插入图片描述

Model-Based RL

在model-based RL里,绿格子里是预判下一个状态St+1。橙色格子依然是产生样本,绿色格子是利用这些样本去产生一个fφ,利用这个函数,可以预测下一个状态。用样本使这个函数越来越拟合。
在这里插入图片描述
这样可以得到一个确定的policy,a deterministic policy,在确定的环境中可以工作的较好,但是在随即环境 stochastic environment 中就不是很合适了。

进一步说明:
在这里插入图片描述

which part is expensive

橙色部分根据情况而定;
绿色部分,如果是做policy gradient,就很简单,花费很少;但是如果是做上面这种拟合一个fφ出来,就很麻烦,这需要建

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值