深度强化学习（二）强化学习算法的分类

最新推荐文章于 2024-04-05 17:14:40 发布

VIP文章 daydayjump

最新推荐文章于 2024-04-05 17:14:40 发布

阅读量3w

点赞数 24

分类专栏：强化学习文章标签：强化学习分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daydayjump/article/details/92620460

版权

对于强化学习的分类，主要参考了莫烦大佬的视频和OpenAI的Spinning Up的介绍。

一、Model-Free和Model-Based两大类

上图是Spinning Up中的分类图。对于model的理解就是强化学习中的环境。根据是否去学习环境来进行分类。根据转移概率是否已知进行分类的。

Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有policy optimization和Q-learning。

Model-Based是去学习和理解环境，学会用一个模型来模拟环境，通过模拟的环境来得到反馈。根据莫烦大佬的解释，Model-Based相当于比Model-Free多了模拟环境这个环节，通过模拟环境预判接下来会发生的所有情况，然后选择最佳的情况。

二

最低0.47元/天解锁文章

关注

24
点赞
踩
165

收藏

觉得还不错? 一键收藏
5
评论
深度强化学习（二）强化学习算法的分类

对于强化学习的分类，主要参考了莫烦大佬的视频和OpenAI的Spinning Up的介绍。一、Model-Free和Model-Based两大类上图是Spinning Up中的分类图。对于model的理解就是强化学习中的环境。根据是否去学习环境来进行分类。根据转移概率是否已知进行分类的。Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有polic...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。