RL的分类

RL(Reinforcement Learning)算法可以根据是否对环境建模分为两大类,model-based和model-free。model-based能预测状态转移和收益,而model-free不关注建模,实现简单且应用广泛。此外,RL还可以根据学习目标分为Policy Optimization和Q-Learning,前者目标是学习最优策略,后者是学习最优值函数。Q-Learning中的On-policy和Off-policy分别指采样策略与评估策略是否相同。
摘要由CSDN通过智能技术生成

RL算法的分类

RL算法分类

1. 分类标准一

从“是否能对环境建模”出发,RL可以被划分为 Model-FreeModel-Based.
二者之间的区别就是 agent能不能为环境建模,也就是去学习一个函数可以预测状态转移和收益。
如果我们为环境建模,那么agent就可以提前预测各种选择下的情况,并从这些预测过程中学到更多经验,再应用到实际行为中。最著名的就是AlphaZero的例子,在 sample efficiency 上优势显著。在这个例子中虽然我们可以知道对手所有可能的环境,但并不知道对手真正会走到哪个位置。因此,可以把对手的策略想象成环境的状态转移概率。

样本使用率
每一次策略发生变化,是否要丢弃前面产生的样本。如果是agent和环境交互,耗时很长,所以每次丢弃大量样本是不划算。

Model-Based很明显的缺点就是建模很困难。就是variance和bias之间的关系,而且学习成本也非常大。

Model-Free就不用关注那么多了,实现起来更容易,被应用的更广泛。

2. 分类标准二

从“学习目标”出发,RL可以被划分为学习policy,学习状态值函数,学习值函数,学习环境。

2.1 基于model-free的分类标准二

Policy Optimization

即RL的目标是学到一种最优策略,记为 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ(a∣<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值