强化学习（一）——强化学习概念、方法汇总及游戏例子

最新推荐文章于 2024-06-26 18:30:31 发布

colourgxk

最新推荐文章于 2024-06-26 18:30:31 发布

阅读量3k

点赞数

文章标签：强化学习强化学习方法强化学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/colourgxk/article/details/89303012

版权

本文介绍了强化学习的基本概念，将其与监督学习进行了对比，并详细阐述了强化学习的不同方法，包括Model-free与Model-based RL，Policy-based和Value-based RL，以及Monte-Carlo和Temporal-Difference更新策略。此外，还提到了在线学习和离线学习的区别。通过模拟视频资源，读者可以更直观地理解强化学习的应用。

摘要由CSDN通过智能技术生成

一、什么是强化学习

监督学习：有数据和数据对应的标签，根据这些数据和标签进行学习，从而判断出新的数据属于哪一类标签。

强化学习：比监督学习更进一步，一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签，然后再学习哪些数据对应哪些标签。通过学习到的规律，尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则，学会下围棋，从而得到高分。

我感觉监督学习更适合分类，而强化学习帮助你做一个可以取得高分的决定，也就是指导你怎么做。那么强化学习和深度学习有什么区别呢？他们都属于机器学习的分支，强化学习就像人的大脑，帮你做决策，而深度学习是机器学习的一个模型：深度神经网络（DNN），主要用于图像处理和自然语言处理。

二、强化学习的方法

（1）Model-free RL 和Model-based RL

Model-free RL:不理解环境是什么，环境给了什么就是什么，按部就班。

Model-based RL：理解环境是什么，也就是学会用一个模型来为环境建模。建模也就是想象力。

（2）Policy-based RL基于概率和Value-based RL基于价值

Policy-based RL：输出的是不同动作的概率，但每种动作都可能被选中。

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
强化学习（一）——强化学习概念、方法汇总及游戏例子

一、什么是强化学习监督学习：有数据和数据对应的标签，根据这些数据和标签进行学习，从而判断出新的数据属于哪一类标签。强化学习：比监督学习更进一步，一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签，然后再学习哪些数据对应哪些标签。通过学习到的规律，尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则，学会下围棋，从而得到高分。我感觉监督学习更适合分类，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。