一、概述
强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。
二、强化学习算法汇总
2.1 Model-Free vs Model-Based
- 免模型学习(Model-Free)
不尝试去理解环境, 环境给了我们什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。在效率上不如前者,但是这种方式更加容易实现,也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎,得到更加广泛的开发和测试。
Q learning, Sarsa, Policy Gradients 等都属于Model-Free - 有模型学习(Model-Based)
对环境有提前的认知,通过过往的经验, 先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,可以提前考虑规划,但是缺点是如果模型跟真实世界不一致,那么在实际使用场景下会表现的不好。
2.2 基于概率 vs 基于价值
- 基于概率
基于概率是强化学习中最直接的一种,直接输出下一步要采取的各种动作的概率,根据概率采取行动,所以每种动作都有可能被选中,只是可能性不同。 - 基于价值
基于价值的方法输出的则是所有动作的价值,根据最高价值来选着动作。相比基于概率的方法,基于价值的决策部分更为确定,直接选价值最高的,而基于概率的方法,即使某个动作的概率最高,但是还是不一定会选到他。 - 基于概率的方法有Policy Gradient,在基于价值这边有 Q learning, Sarsa 等。
- Actor-Critic结合了基于概率和基于价值: actor 会基于概率做出动作,而 critic 会对做出的动作给出动作的价值,这样就在原有的 policy gradients 上加速了学习过程。