随机策略可以理解为是概率分布,常用的有以下几种:
贪婪策略
贪婪策略是一个确定性策略,即只有在使得动作值函数 q∗(s,a) q ∗ ( s , a ) 最大的动作处取概率为1,选择其他动作的概率为0
e-greedy策略
ϵ−greedy ϵ − g r e e d y 策略是强化学习最基本最常用的随机策略,其含义是选取使得动作值函数最大的动作的概率为 1−ϵ+ϵ|A(s)| 1 − ϵ + ϵ | A ( s ) | ,而其他动作的概率为等概率,都为 ϵ|A(s)| ϵ | A ( s ) | 。 ϵ−greedy ϵ − g r e e d y 策略平衡了利用和探索,其中选取动作值函数最大的部分为利用,其他非最优动作仍有概率为探索部分
高斯策略
一般高斯策略可以写成 πθ=μθ+ϵ,ϵ∼N(0,σ2) π θ = μ θ + ϵ , ϵ ∼ N ( 0 , σ 2 ) 。其中 μθ μ θ 为确定性部分, ϵ ϵ 为零均值的高斯随机噪声。高斯策略也平衡了利用和探索,其中利用由确定性部分完成,探索有 ϵ ϵ 完成。高斯策略在连续系统的强化学习中应用广泛。
玻尔兹曼分布
对于动作空间是离散的或者动作空间并不大的情况,可采用玻尔兹曼分布作为随机策略,即
其中 Q(s,a,θ) Q ( s , a , θ ) 为动作值函数,该策略的含义是动作值函数大的动作被选中的概率大,动作值函数小的动作被选中的概率小