DRL形成背景
深度强化学习(Deep Reinforcement Learning)顾名思义,是深度学习与强化学习的结合,因此深度强化学习弥补了DL和RL的不足之处。
- 深度学习最近火热,大家也都有所了解,就是通过多层网络和非线性变换,去学习数据的分布式特征表示,因此深度学习侧重于对事物的感知和表达。
- 而强化学习,了解的同学都知道,通过奖惩机制去挖掘最优策略,因此它侧重于学习解决问题的策略。
因此由于深度学习特征感知能力强却缺乏决策能力,引入了深度强化学习这个概念。
强化学习
要了解深度强化学习,首先要了解强化学习这个概念,接下来就简单介绍一下强化学习的基础知识。
强化学习是从环境状态到动作空间的映射的一种学习。它的基础是马尔可夫决策过程(MDP),即:当前状态只与上一个状态有关,不考虑上一个状态之前的累积影响。
通常MDP被定义为一个四元组(S,A,R,P):
- S代表状态空间,St表示agent在t时刻所处的状态。
- A代表动作空间,at表死agent在t时刻所进行的动作。
- R代表奖励/惩罚reward,可以代表一个学习过程的反馈,其中rt+1代表在t时刻St状态下,做出at动作后,转移到达St+1状态所获得的奖励。