总体认识
强化学习是很大的概念,他包含了很多种算法,我们也会一一提到其中一些比较有名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的Q Learning方法,sarsa等,使用神经网络学习的Deep Q Network,还有直接输出行为的policy gradients,又或者了解所处的环境,建模出一个虚拟的环境并从虚拟的环境中学习等等。
了解强化学习中常用到的几种方法,以及他们的区别,对我们根据特定问题选择方法时很有帮助。强化学习是一个大概念,发展历史也不短,有很多中不同方法。比如说比较知名的控制方法Q Learning,policy gradients,还有基于对环境的理解的model-based RL等等。接下来我们通过分类的方式来了解他们的区别。