笔记4里学习了价值学习,就是用神经网络近似一个Q*函数,把状态S输入其中,这个神经网络就会为该状态下的每一个动作打分,选择分数最高的那个动作即可。笔记5是关于策略学习的,就是用神经网络近似π函数,把状态S输入其中,这个神经网络(策略网络)就会输出该状态下的每一个动作的概率,用这些概率做一个随机抽样得到at。
策略网络policy network(Π(a|s;ϴ))
回忆:策略函数Π(a|s),是概率密度函数,用它来自动控制agent运动,输入当前状态S,他会输出一个概率分布,是每一个动作的一个概率值。然后随机抽样得到动作a,概率越大抽中的可能性就越大。抽中动作a,那agent就做a这个动作。
策略学习中,用一个深度神经网络近似策略函数,这个神经网络称为策略网络(policy network),把他记为Π(a|s;ϴ)。这里的ϴ是神经网络的参数,一开始ϴ是随机初始化的,然后我们通过学习来改进ϴ。
把状态S输入Π(a|s;ϴ)中,这个策略网络就会输出该状态下的每一个动作的概率,用这些概率做一个随机抽样得到at,agent执行该动作即可。
如何评价策略网络的好坏
我们用深度神经网络近似策略函数,得到策略网络。怎么知道这个策略网络的好坏呢?
①状态价值函数Vπ:Vπ是动作价值函数Qπ的期望。