深度强化学习
强化学习对于状态数和行为数很多时,这两个算法将会遇到困难,因为它们会遍历所有状态数和行为数。
因此有了深度强化学习方向:如果Q(s,a)函数定义为如下形式:
即在状态s情况下采用行为a后获得的指数化衰减的累计奖励。那么容易推出如下地推公式:
可以建出DEEP Q-NETWORK(DQN)的网络
基本思路:用深度神经网络来模拟
θ为待估计变量
因此可以做如下推导
(1)前向计算:
(2)后向传播
因为状态数量太多,DQN进行了有限采样。
Policy Gradient 算法:用来解决奖励函数延迟获得这一问题的
主要思想:
但是Policy Gradient会导致算法收敛速度很慢,需要很多数据才能有效。
结果不好,不见得每一个具体的过程都不好。
为了加快收敛速度,加入了估值函数(Value Function)V(s):代表在状态S下对最终收益的估计。
加入估值函数后,算法流程:
Actor—Critic算法
主要思想是同时优化收益函数Q(S,A)和估值函数V(s)
Q(S,a,θ)是演员(actor),它决定了下一步的行为
V(S,φ)是评论家(CRITIC),它评论每一步行为的好坏