强化学习笔记(一)

强化学习算法分类

根据行为选择依据进行分类
  • 通过价值选行为:
    • Q Learning
    • Sarsa
    • Deep Q Network
  • 直接选行为:
    • Policy Gradients
  • 想象环境并从中学习:
    • Model based RL
根据理解环境与否进行分类
  • 不理解环境(Model-Free RL):
    • Q Learning
    • Sarsa
    • Policy Gradients
  • 理解环境(Model-Based RL):
    • Q Learning
    • Sarsa
    • Policy Gradients
  1. 不理解环境(Model-Free RL): 根据真实环境反馈进行学习
  2. 理解环境(Model-Based RL): 根据模拟环境反馈进行学习, 并将策略运用至真实环境
根据学习基于方式进行分类
  • 基于概率(Policy-Based RL):
    • Policy Gradients
  • 基于价值(Value-Based RL):
    • Q Learning
    • Sarsa
  1. 基于概率(Policy-Based RL): 各种行为都有可能被选择, 概率不同, 可以对连续分布的行为进行选择
  2. 基于价值(Value-Based RL): 选择价值最高的价值, 无法对连续分布的行为进行选择
  3. 结合概率和价值的算法: Actor-Critic
根据更新方式进行分类
  • 回合更新(Monte-Carlo Update):
    • 基础版 Policy Gradients
    • Monte-Carlo Learning
  • 单步更新(Temporal-Difference Update):
    • Q Learning
    • Sarsa
    • 升级版 Policy Gradients
  1. 回合更新(Monte-Carlo Update): 从游戏开始到结束更新
  2. 单步更新(Temporal-Difference Update): 游戏开始后每一步可以选择更新
根据是否亲自操作进行分类
  • 在线学习(On-Policy):
    • Sarsa
    • Saras(λ)
  • 离线学习(Off-Policy):
    • Q Learning
    • Deep Q Network
  1. 在线学习(On-Policy): 模型根据亲自操作进行学习
  2. 离线学习(Off-Policy): 模型可以根据观察已有的操作过程进行学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值