一个简单的例子让你理解强化学习是什么，和有监督学习的区别又是什么

最新推荐文章于 2024-02-13 00:53:17 发布

海晨威

最新推荐文章于 2024-02-13 00:53:17 发布

阅读量1.3w

点赞数 12

分类专栏：强化学习强化学习中的小思考文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyunli1111/article/details/80657500

版权

强化学习中的小思考同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一个简单的小例子：

对于一个正在学走路的小屁孩，他一不小心摔倒了，如果他一摔倒就哭，那妈妈就会打他小屁屁，如果他摔倒了会自己爬起来，那妈妈很高兴，就奖励他喝一口奶。这样小屁孩就学会了摔倒了要自己爬起来，然后就可以喝很多很多奶。

其实，强化学习就是通过不断与环境交互，利用环境给出的奖惩来不断的改进策略（即在什么状态下采取什么动作），以求获得最大的累积奖惩。

在上述问题中，奖就是喝奶，惩就是打屁屁，在摔倒状态下，是选择哭还是爬起来，不同的动作会有不同的奖惩；初始的策略是哭和爬起来都有可能。但根据奖惩，小屁孩学到了摔倒之后爬起来是一个更好的策略，因此之后都会选择这个策略，这样就可以最大化累积奖惩—喝很多很多奶。

强化学习和有监督学习的主要区别：

1、有监督学习的训练样本是有标签的，强化学习的训练是没有标签的，它是通过环境给出的奖惩来学习

2、有监督学习的学习过程是静态的，强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互，有监督学习是给什么样本就学什么，而强化学习是要和环境进行交互，再通过环境给出的奖惩来学习

3、有监督学习解决的更多是感知问题，尤其是深度学习，强化学习解决的主要是决策问题。因此有监督学习更像是五官，而强化学习更像大脑。

强化学习的入门可以参考：强化学习如何入门

关注

12
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
3
评论
一个简单的例子让你理解强化学习是什么，和有监督学习的区别又是什么

一个简单的例子：对于一个正在学走路的小屁孩，他一不小心摔倒了，如果他一摔倒就哭，那妈妈就会打他小屁屁，如果他摔倒了会自己爬起来，那妈妈很高兴，就奖励他喝一口奶。这样小屁孩就学会了摔倒了要自己爬起来，然后就可以喝很多很多奶。其实，强化学习就是通过不断与环境交互，利用环境给出的奖惩来不断的改进策略（即在什么状态下采取什么动作），以求获得最大的累积奖惩。在上述问题中，奖就是喝奶，惩就是打屁屁...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海晨威 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。