强化学习的分类方法

最新推荐文章于 2024-07-18 10:38:04 发布

csdn_LYY

最新推荐文章于 2024-07-18 10:38:04 发布

阅读量3.8k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_lyy/article/details/103857163

版权

本文介绍了强化学习的不同分类方法，包括Model-free与Model-based、基于概率和基于价值、回合更新与单步更新、在线学习与离线学习。通过这些分类，帮助读者理解Q Learning、SARSA、Policy Gradients等算法的差异，并探讨了各方法在实际应用中的优缺点。

摘要由CSDN通过智能技术生成

总体认识

在这里插入图片描述

强化学习是很大的概念，他包含了很多种算法，我们也会一一提到其中一些比较有名的算法，比如有通过行为的价值来选取特定行为的方法，包括使用表格学习的Q Learning方法，sarsa等，使用神经网络学习的Deep Q Network，还有直接输出行为的policy gradients，又或者了解所处的环境，建模出一个虚拟的环境并从虚拟的环境中学习等等。

了解强化学习中常用到的几种方法，以及他们的区别，对我们根据特定问题选择方法时很有帮助。强化学习是一个大概念，发展历史也不短，有很多中不同方法。比如说比较知名的控制方法Q Learning，policy gradients，还有基于对环境的理解的model-based RL等等。接下来我们通过分类的方式来了解他们的区别。

Model-free 和 Model-based

在这里插入图片描述

我们可以将所有强化学习的方法分为理不理解所处的环境，如果我们不尝试去理解环境，环境给了我们什么就是什么。我们把这种方法叫做model-free，这里的model是用模型来表示环境，理解了环境也就是学会了用一个模型来代表环境，所以这种就是model-based方法。我们假设，现在环境是我们的时间，我们的机器人在这个世界里玩

最低0.47元/天解锁文章

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄10年

312
原创

238
点赞

622
收藏

37
粉丝

关注

私信

热门文章

分类专栏

工具 6篇
leetcode 1篇
经验 2篇
无线通信 2篇
人工智能 1篇
mathtype 1篇
blog 3篇
C++ 105篇
汇编 17篇
随想 5篇
数据结构 4篇
算法 3篇
linux 24篇
database 44篇
计算机组成原理
计算机网络 1篇
操作系统 10篇
Hadoop
Hbase 1篇
Docker 8篇
机器学习 69篇
WEKA 3篇
TeX 18篇
LabVIEW
matlab 19篇

最新评论

latex希腊字母斜体变正体
baidu_34343905: 牛，一句话解决问题，别的攻略还要引入宏包甚至还要收费才能看教程
概率和似然，终于懂了
天心481: 求似然的目的就是估计参数θ，如果这个θ就是真实的θ，那么似然和概率一定是相等的
谈google搜索引擎的使用
十三月的天: 所以谷歌搜索引擎怎么用啊
texstudio出现Could not start the command: pdflatex.exe -synctex=1 -interaction=nonstopmode解决方法
weixin_50519490: 还是打不开，右侧是黑屏，显示pdf格式不正确
[科普]原码，反码，补码由来
做而论道_CS: 实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这还用算？ 0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！求补码，就是这么简单。符号位原码反码取反加一符号位不变模... 这些，不过是 “拿来鞋拔当如意” 而已。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。