Introduction
上一节说的是value function approximation,使用的是函数拟合。这一节说的就是采用概率的方法来表示:这一节主要是讲model-free的方法。
RL有value-base,policy-based,以及把两者进行结合的actor-aritic的方法。
使用policy-based RL的好处在于:更容易收敛;在高维和连续动作空间更有效;可以进行stochastic学习。坏处在于它容易陷入局部最优并且evaluate比较低效。
对于上面的policy进行evaluate,那么就把整个action到state的value都加起来取平均值:(这里的d就是Markov链分布)
基于policy的RL就是要最大化J( θ )。有些方法如Hill Climbing,Simplex(Amoeba,Nelder Mead),Genetic Algorithms不使用gradient,但是又有比如Gradient Descent,Conjugate gradient,Quasi-Newton使用gradient descent。
Finite Difference Policy Gradient
思路就是对J(