强化学习笔记（一）

最新推荐文章于 2024-05-27 16:46:38 发布

wiger321

最新推荐文章于 2024-05-27 16:46:38 发布

阅读量104

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40042498/article/details/113862957

版权

强化学习算法分类

根据行为选择依据进行分类

通过价值选行为:
- Q Learning
- Sarsa
- Deep Q Network
直接选行为:
- Policy Gradients
想象环境并从中学习:
- Model based RL

根据理解环境与否进行分类

不理解环境(Model-Free RL):
- Q Learning
- Sarsa
- Policy Gradients
理解环境(Model-Based RL):
- Q Learning
- Sarsa
- Policy Gradients

不理解环境(Model-Free RL): 根据真实环境反馈进行学习
理解环境(Model-Based RL): 根据模拟环境反馈进行学习, 并将策略运用至真实环境

根据学习基于方式进行分类

基于概率(Policy-Based RL):
- Policy Gradients
基于价值(Value-Based RL):
- Q Learning
- Sarsa

基于概率(Policy-Based RL): 各种行为都有可能被选择, 概率不同, 可以对连续分布的行为进行选择
基于价值(Value-Based RL): 选择价值最高的价值, 无法对连续分布的行为进行选择
结合概率和价值的算法: Actor-Critic

根据更新方式进行分类

回合更新(Monte-Carlo Update):
- 基础版 Policy Gradients
- Monte-Carlo Learning
单步更新(Temporal-Difference Update):
- Q Learning
- Sarsa
- 升级版 Policy Gradients

回合更新(Monte-Carlo Update): 从游戏开始到结束更新
单步更新(Temporal-Difference Update): 游戏开始后每一步可以选择更新

根据是否亲自操作进行分类

在线学习(On-Policy):
- Sarsa
- Saras(λ)
离线学习(Off-Policy):
- Q Learning
- Deep Q Network

在线学习(On-Policy): 模型根据亲自操作进行学习
离线学习(Off-Policy): 模型可以根据观察已有的操作过程进行学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。