RL基础算法优缺点总结

RL基础算法优缺点总结)

RL算法主要分为三类:基于值(value-based)系列,基于策略梯度(Policy-gradient)系列,以及两者相结合的Actor-Critic系列。今天主要介绍这三类中典型的算法的核心思想以及它们各自的优缺点。

value-based 类别

首先从基于值这类算法说起,这类算法的特点是计算状态价值V(s)或者是状态动作价值Q(s,a),通过提高价值来优化策略。其中典型的算法有Q-learning、Sarsa、DQN,DDQN。

从Q-learning算法说起,它算是DQN这一系列算法的根基,核心思想就是建立和状态动作有关的奖励表格,我们称为Q表。根据表格选择动作,与环境进行交互,根据反馈回来的奖励再次更新表格,如此循环直到Q表收敛为止。它的优势就是简单,收敛快,因为是采用单步更新的方法,不用等到一个回合结束才去更新。同时它还是离线策略,即它选动作的行动策略和计算Q值的目标策略不一样,选动作采用epsilon贪婪策略,计算Q值采用贪婪策略。保证了探索性,不会收敛到局部最优。当然Q-learning的缺点也很显著,它只适用于状态,动作空间是离散,并且较小的场景。当状态,动作空间太大时,Q表就会变得很大,更新起来也很慢。

对比Q-learning算法来看Sarsa就很简单,它与Q-learning的核心思想一样也是建立Q表,只有一点不同,它是在线策略,即它的行动策略和目标策略都是采用的epsilon贪婪策略。

前面也说了Q-learning是DQN系列的鼻祖,人们

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值