一个简单的小例子:
对于一个正在学走路的小屁孩,他一不小心摔倒了,如果他一摔倒就哭,那妈妈就会打他小屁屁,如果他摔倒了会自己爬起来,那妈妈很高兴,就奖励他喝一口奶。这样小屁孩就学会了摔倒了要自己爬起来,然后就可以喝很多很多奶。
其实,强化学习就是通过不断与环境交互,利用环境给出的奖惩来不断的改进策略(即在什么状态下采取什么动作),以求获得最大的累积奖惩。
在上述问题中,奖就是喝奶,惩就是打屁屁,在摔倒状态下,是选择哭还是爬起来,不同的动作会有不同的奖惩;初始的策略是哭和爬起来都有可能。但根据奖惩,小屁孩学到了摔倒之后爬起来是一个更好的策略,因此之后都会选择这个策略,这样就可以最大化累积奖惩—喝很多很多奶。
强化学习和有监督学习的主要区别:
1、有监督学习的训练样本是有标签的,强化学习的训练是没有标签的,它是通过环境给出的奖惩来学习
2、有监督学习的学习过程是静态的,强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互,有监督学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习
3、有监督学习解决的更多是感知问题,尤其是深度学习,强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑。
强化学习的入门可以参考:强化学习如何入门