一、按算法分类
1、on policy:同策学习:边决策边学习,学习者也是决策者,例如围棋AI边对弈边学习
2、off policy:异策学习:通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习,学习者和决策者不需要相同。在异策学习的过程中,学习者并不一定要知道当时的决策,例如围棋AI通过阅读人类的对弈历史来学习
二、按有无模型分类
1、有模型学习:用到了环境的数学模型,可能在学习前环境的模型就已明确、也可能环境的模型也是通过学习来获得。例如围棋AI在下棋时在完全了解游戏规则的基础上虚拟出另外一个棋盘并在虚拟棋盘上试下,通过试下来学习
2、 无模型学习:不需要环境信息、不需要搭建模拟环境模型,所有的经验都是通过与真实环境交互得到
三、基于价值和基于策略
1、基于价值:基于价值的强化学习定义了状态或动作的价值函数以表示到达某种状态或执行某种动作后可以得到的回报,基于价值的强化学习倾向于选择价值最大的状态或动作
2、基于策略:不需要定义价值函数,它可以为动作分配概率分布,按照概率分布执行动作