问:强化学习解决的是什么样的问题?
答:“序列决策问题。”
面试官又问:“多臂老虎机只是一步,没有序列呀?”
…
上述问题和回答参考自:再励学习面试真题
无论是在面试中,还是在实际的业务中,强化学习能够解决的问题、适合解决的问题都需要理解的非常深刻。
在上面提及的问题中,多臂老虎机其实可以看作一种特殊的强化学习问题:序列长度一直为1的强化学习。它在强化学习关键的三要素(状态,动作,奖惩)中,没有状态一项,也可以说,它当前的动作不会改变环境状态,亦或者说它的最优策略是全局的,只要找到了这个策略,那只要一直采取这个策略就可以保证最大的累计回报。具体来讲,就是找到了回报奖励最大的臂之后,一直摇这个臂就可以了。
强化学习适合解决的问题可以用下图来解释:
第一行是对应模型未知,需要通过学习逐渐的逼近真实的模型
第二行是对应模型已知,状态转移函数给定
第一列是对应当前的动作不会影响环境的状态
第二列是对应当前的动作会影响环境的状态,也即下一个状态会和上一个状态与采取的动作相关,服从马尔科夫性
左上对应了多臂老虎机问题,可以理解为序列长度为1的特殊强化学习问题;
左下对应了决策理论,可能是博弈论相关理论(不太了解,逃)
右上对应了强化学习问题,模型未给定,因此需要和环境交互来学习,动作影响环境状态因此需要连续的决策来最大化累计回报
右下对应了马尔科夫决策过程,模型给定,因此通过动态规划和贝尔曼方程即可得到最优策略
因此,在强化学习中,模型输出的动作必须要能够改变环境的状态,并且模型能够获得环境的反馈(奖惩),同时状态应该是可重复到达的(可学习性)。 当满足上述特征时,可以考虑用强化学习算法。
参考: