目标函数
策略学习的目的是获得一个尽可能优的策略函数,使得的这个策略函数在能够取得尽可能大的未来累计回报。我们需要构建一个模型去描述这个策略函数,在训练模型的过程中,需要有一个评价函数来量化评价策略函数的好坏,同时评价结果的反馈可以用于策略函数模型的参数修正。
策略函数
我们可以用模型来近似策略函数
, 其中
为模型参数。
状态价值函数
其中
在上篇笔记中有介绍,
表示在当前策略函数
下能够获得的未来累计回报的期望。
状态价值用于评价在当前策略函数和当前状态下,能够获得的未来累计回报的期望,为什么是期望?因为这里策略的函数是一个概率分布函数。这样的话,因为当前状态是可以确定的,策略函数越优化,状态价值函数就会越大。所以模型的学习目标可以转化为:求一个尽可能大的
。
用神经网络近似状态价值函数
其中是网络参数。
和当前状态s有关,s的值是具有随机性的,所以我们可以对
关于S求期望,得到:
我们期望的值最大,所以策略网络的目标就是: