MDP中常用的概率分布_策略的概率分布-CSDN博客

本文链接：https://blog.csdn.net/qq_27389705/article/details/88945954

马尔可夫决策过程(Markov Decision Process, MDP)
在MDP中有一些常用的随机策略

[1]. 贪婪策略

贪婪策略是一个确定性策略，即只有在使得动作值函数最大的动作处取概率1，选其他动作的概率为0
其中
$\pi ^*(a|s) = \begin{cases} 1, & \text {if a = $\arg\max_{a\in A} q^*(s,a)$} \\ 0, & \text {otherwise} \end{cases}$

[2]. ϵ-greedy策略

ϵ-greedy策略是强化学习最基本最常用随机策略。其含义是选取使得动作值函数最大的动作的概率为
$1-\epsilon+\frac{\epsilon}{|A(s)|} \quad$
其他动作的概率为等概率，都为
$\frac{\epsilon}{|A(s)|} \quad$
ϵ-greedy平衡了利用(exploitation)和探索(exploration)，其中选取动作值函数最大的部分为利用，其他非最优动作仍有概率为探索部分。
$\pi ^*(a|s) = \begin{cases} {1-\epsilon+\frac{\epsilon} {|A(s)|} \quad}, & \text {if a = $\arg\max_{a} Q(s,a)$} \\ 0, & \text {if $a \neq \arg\max_{a} Q(s,a)$} \end{cases}$

[3]. 高斯策略

一般高斯策略可以写成
$\pi_\theta = \mu_\theta + \epsilon, \epsilon~N(0,\sigma^2)$
其中μ为确定性部分，ϵ为零均值的高斯随机噪声。高斯策略也平衡了利用和探索，其中利用由确定性部分完成，探索由ϵ完成。高斯策略在连续系统的强化学习中应用广泛。

[4]. 玻尔兹曼分布。

对于动作空间是是离散的或者动作空间并不大的情况，可采用玻尔兹曼分布作为随机策略，即：
$\pi(a|s,\theta) = \frac{exp(Q(s,a,\theta))}{\sum _bexp(h(s,b,\theta))}\quad$
其中Q为动作值函数。该策略的含义是，动作值函数大的动作被选中的概率大，动作值函数小的动作被选中的概率小。