强化学习方法-分类

1. 是否理解环境

1.1 不理解环境(Model-Free RL)

不理解环境,也不理解环境给的反馈

1.2 理解环境(Model-Based RL)

通过过往经验,理解环境,理解环境的反馈,构建虚拟世界(想象力,预判断反馈,执行下一步)

2. 基于XX

2.1 基于概率(Policy-Based RL)

基于感知,生成事件概率,根据概率采取行动。(任何行动都有可能)

可以适用于连续的

ex:policy gradients

2.2 基于价值 (Value-based RL)

基于感知,生成价值,只选择价值最高的。(只有价值最高的才会被选)

不适用于连续的

ex: Q learning, Sarsa

2.3 基于概率与基于价值相结合(Actor-Critic)

Actor基于概率生成动作,Critic会对各个动作给出价值

3. 更新频率

3.1 回合更新(Monte-Carlo update)

游戏开始-游戏进程-游戏结束-更新行为准则

一般用于阶段性任务

ex:基础版Policy Gradients, Monte-Carlo Learning

3.1 单步更新 (Temporal-Difference update)

游戏开始-游戏进程(每个步骤进行更新)-游戏结束

可以进行连续学习

ex࿱

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习方法可以根据不同的分类标准进行分类。下面是一些常见的分类方法: 1. 基于价值与策略的分类: - 基于价值的方法:这类方法通过估计每个状态或状态动作对的价值函数来指导决策。典型的算法包括Q-learning和Deep Q Network(DQN)。 - 基于策略的方法:这类方法直接学习一个策略函数,用于直接生成动作。典型的算法包括Policy Gradient和Proximal Policy Optimization(PPO)。 2. 模型无关与模型相关的分类: - 模型无关的方法:这类方法直接在环境中进行试错学习,无需对环境动力学模型进行建模。典型的算法包括Q-learning和Policy Gradient。 - 模型相关的方法:这类方法通过建模环境的动力学模型,使用模型进行规划和预测,并辅助决策。典型的算法包括Model-based Reinforcement Learning和Monte Carlo Tree Search(MCTS)。 3. 基于样本与基于模拟的分类: - 基于样本的方法:这类方法通过从环境中采样得到的样本来进行学习。典型的算法包括Q-learning和DQN。 - 基于模拟的方法:这类方法通过在模拟环境中进行试错学习,或者使用模拟器生成的数据进行学习。典型的算法包括MCTS和AlphaGo。 4. 基于价值迭代与基于策略迭代的分类: - 基于价值迭代的方法:这类方法通过迭代地更新价值函数来优化策略。典型的算法包括Value Iteration和Q-learning。 - 基于策略迭代的方法:这类方法通过迭代地更新策略函数来优化策略。典型的算法包括Policy Iteration和REINFORCE。 需要注意的是,强化学习方法分类并不是绝对的,很多算法可以同时属于多个分类。此外,还有其他的分类标准和方法,根据具体问题和应用场景选择合适的分类方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值