强化学习适合解决什么样的问题

问:强化学习解决的是什么样的问题?

答:“序列决策问题。”

面试官又问:“多臂老虎机只是一步,没有序列呀?”

上述问题和回答参考自:再励学习面试真题

无论是在面试中,还是在实际的业务中,强化学习能够解决的问题、适合解决的问题都需要理解的非常深刻。

在上面提及的问题中,多臂老虎机其实可以看作一种特殊的强化学习问题:序列长度一直为1的强化学习。它在强化学习关键的三要素(状态,动作,奖惩)中,没有状态一项,也可以说,它当前的动作不会改变环境状态,亦或者说它的最优策略是全局的,只要找到了这个策略,那只要一直采取这个策略就可以保证最大的累计回报。具体来讲,就是找到了回报奖励最大的臂之后,一直摇这个臂就可以了。

强化学习适合解决的问题可以用下图来解释:

图

第一行是对应模型未知,需要通过学习逐渐的逼近真实的模型

第二行是对应模型已知,状态转移函数给定

第一列是对应当前的动作不会影响环境的状态

第二列是对应当前的动作会影响环境的状态,也即下一个状态会和上一个状态与采取的动作相关,服从马尔科夫性

左上对应了多臂老虎机问题,可以理解为序列长度为1的特殊强化学习问题;

左下对应了决策理论,可能是博弈论相关理论(不太了解,逃)

右上对应了强化学习问题,模型未给定,因此需要和环境交互来学习,动作影响环境状态因此需要连续的决策来最大化累计回报

右下对应了马尔科夫决策过程,模型给定,因此通过动态规划和贝尔曼方程即可得到最优策略

因此,在强化学习中,模型输出的动作必须要能够改变环境的状态,并且模型能够获得环境的反馈(奖惩),同时状态应该是可重复到达的(可学习性)。 当满足上述特征时,可以考虑用强化学习算法。

参考:

增强学习在推荐系统有什么最新进展? - 杨旭东的回答 - 知乎

基于tensorflow的最简单的强化学习入门

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海晨威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值