强化学习适合解决什么样的问题

最新推荐文章于 2024-08-05 09:57:35 发布

海晨威

最新推荐文章于 2024-08-05 09:57:35 发布

阅读量6.8k

点赞数 1

分类专栏：强化学习强化学习中的小思考文章标签： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyunli1111/article/details/84453457

版权

强化学习中的小思考同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

问：强化学习解决的是什么样的问题？

答：“序列决策问题。”

面试官又问：“多臂老虎机只是一步，没有序列呀？”

…

上述问题和回答参考自：再励学习面试真题

无论是在面试中，还是在实际的业务中，强化学习能够解决的问题、适合解决的问题都需要理解的非常深刻。

在上面提及的问题中，多臂老虎机其实可以看作一种特殊的强化学习问题：序列长度一直为1的强化学习。它在强化学习关键的三要素（状态，动作，奖惩）中，没有状态一项，也可以说，它当前的动作不会改变环境状态，亦或者说它的最优策略是全局的，只要找到了这个策略，那只要一直采取这个策略就可以保证最大的累计回报。具体来讲，就是找到了回报奖励最大的臂之后，一直摇这个臂就可以了。

强化学习适合解决的问题可以用下图来解释：

第一行是对应模型未知，需要通过学习逐渐的逼近真实的模型

第二行是对应模型已知，状态转移函数给定

第一列是对应当前的动作不会影响环境的状态

第二列是对应当前的动作会影响环境的状态，也即下一个状态会和上一个状态与采取的动作相关，服从马尔科夫性

左上对应了多臂老虎机问题，可以理解为序列长度为1的特殊强化学习问题；

左下对应了决策理论，可能是博弈论相关理论（不太了解，逃）

右上对应了强化学习问题，模型未给定，因此需要和环境交互来学习，动作影响环境状态因此需要连续的决策来最大化累计回报

右下对应了马尔科夫决策过程，模型给定，因此通过动态规划和贝尔曼方程即可得到最优策略

因此，在强化学习中，模型输出的动作必须要能够改变环境的状态，并且模型能够获得环境的反馈（奖惩），同时状态应该是可重复到达的（可学习性）。当满足上述特征时，可以考虑用强化学习算法。

参考：

增强学习在推荐系统有什么最新进展？ - 杨旭东的回答 - 知乎

基于tensorflow的最简单的强化学习入门

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海晨威 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。