1、DQN算法
2、RL算法
3、举例总结
-
强化学习是一个马尔科夫决策过程, 它的目标是追求累计回报最大化max{Gt}, 值函数V(s)是对状态s能获得的累计回报的估计, 也就是V(s)=E(Gt | St = s), 根据贝尔曼方程V(St)与V(St+1)的关系为: V(St) = E( Rt+1 + r*V(St+1) | St = s)
-
引入动作后有动作-值函数 Q(St, At), Q(St, At)=E(Gt | St = s ,At = a),根据贝尔曼方程Q(St, At)与Q(St+1, At+1)的关系为: Q(St, At) = E( Rt+1 + r*Q(St+1, At+1) | St = s,At = a)
-
用 Q-Target网络输出近似代替一回合中最后一步的基于贝尔曼期望方程的Q(St+1, At+1), Qtarget(St, At) = Rt+1 + r*Q(St+1, At+1), 可以从后往前迭代算的每个s的Qtarget(或者每一步都用Q-Taeget网络计算),每一个s都可以用Q-Eval网络算出Qeval
-
一个回合中每个s都有(Qtarget - Qeval)^2,在这个回合中求其均方差E((Qtarget - Qeval)^2)作为梯度,优化网络参数, 最后可以得到贝尔曼最优方程 , 即每个s的最优动作-值函数, 从而可以得到最优策略.