强化学习（分类类别）

最新推荐文章于 2025-03-12 20:37:07 发布

胡萝拔贝贝

最新推荐文章于 2025-03-12 20:37:07 发布

阅读量656

点赞数 1

分类专栏：强化学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42209537/article/details/135926776

版权

强化学习专栏收录该内容

11 篇文章

订阅专栏

强化学习的分类：

强化学习可以分为两大类：①有模型的强化学习；②无模型的强化学习

通常可以用马尔可夫决策过程来定义强化学习任务，并将其表示为四元组，分别是状态集合、动作集合、状态转移函数和奖励函数，假设这四元中组中所有元素已知，且状态集合和动作集合在有限步数内是有限集，则机器学习可以对真实环境进行建模，通过学习状态转移函数来构建一个虚拟环境，以模拟真实环境的状态和交互和反映，这就是有模型强化学习。然而在实际应用中，智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的，通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，所以才有了无模型强化学习。

无模型强化学习又可以分为基于价值迭代和基于策略迭代两种方式。

基于价值迭代：

智能体不需要制定显示的策略，只需要维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。通常智能应用于离散的环境下，对于行为集合规模庞大、动作连续的场景，很难学习到较好的结果。

基于策略迭代：

能够通过分析所处的环境，直接输出下一步要采取的各种动作的概率，然后根据概率采取动作，所以每种动作都有可能被选中，只是可能性不同，这样便可以用来处理连续动作。这一类的智能体会制定一套动作策略，并根据这个策略进行操作，直接对策略进行优化，使定制的策略能够获得最大的奖励。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。