强化学习方法归纳

本文介绍了强化学习的主要方法,包括基于价值的Q-learning,适用于连续场景的Policy Gradient,以及结合两者的Actor-Critic算法。Q-learning在离散空间中寻找最优策略,Policy Gradient则直接优化策略,而Actor-Critic算法结合了价值函数和策略搜索,实现策略的稳定优化。
摘要由CSDN通过智能技术生成


这里写图片描述

图1 强化学习算法的分类

强化学习方法主要包括:基于价值的方法,如Q-learning,DQN;基于策略搜索的方法(Policy Gradient);以及两者的结合行为-评判模型(actor-critic)等。

一、强化学习算法基本思想

  • Q-learning一般针对离散空间,采用值迭代方法。以value推policy。Q-learning通过计算每一个状态动作的价值,然后选择价值最大的动作执行.

  • Policy Gradient针对连续场景,直接在策略空间求解,泛化更好,直推policy。不通过分析奖励值, 直接输出行为的方法.

    注:对比起以值为基础的方法,Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为, 这, 它可吃不消.

  • actor-critic可以看作是一个共轭,互相作用,策略也更稳定。

二、策略梯度方法(Policy-G

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值