总体认识
强化学习是很大的概念,他包含了很多种算法,我们也会一一提到其中一些比较有名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的Q Learning方法,sarsa等,使用神经网络学习的Deep Q Network,还有直接输出行为的policy gradients,又或者了解所处的环境,建模出一个虚拟的环境并从虚拟的环境中学习等等。
了解强化学习中常用到的几种方法,以及他们的区别,对我们根据特定问题选择方法时很有帮助。强化学习是一个大概念,发展历史也不短,有很多中不同方法。比如说比较知名的控制方法Q Learning,policy gradients,还有基于对环境的理解的model-based RL等等。接下来我们通过分类的方式来了解他们的区别。
Model-free 和 Model-based
我们可以将所有强化学习的方法分为理不理解所处的环境,如果我们不尝试去理解环境,环境给了我们什么就是什么。我们把这种方法叫做model-free,这里的model是用模型来表示环境,理解了环境也就是学会了用一个模型来代表环境,所以这种就是model-based方法。我们假设,现在环境是我们的时间,我们的机器人在这个世界里玩