MDP中常用的概率分布

马尔可夫决策过程(Markov Decision Process, MDP)
在MDP中有一些常用的随机策略

[1]. 贪婪策略

贪婪策略是一个确定性策略,即只有在使得动作值函数最大的动作处取概率1,选其他动作的概率为0
其中
π ∗ ( a ∣ s ) = { 1 , if a =  arg ⁡ max ⁡ a ∈ A q ∗ ( s , a ) 0 , otherwise \pi ^*(a|s) = \begin{cases} 1, & \text {if a = $\arg\max_{a\in A} q^*(s,a)$} \\ 0, & \text {otherwise} \end{cases} π(as)={1,0,if a = argmaxaAq(s,a)otherwise

[2]. ϵ-greedy策略

ϵ-greedy策略是强化学习最基本最常用随机策略。其含义是选取使得动作值函数最大的动作的概率为
1 − ϵ + ϵ ∣ A ( s ) ∣ 1-\epsilon+\frac{\epsilon}{|A(s)|} \quad 1ϵ+A(s)ϵ
其他动作的概率为等概率,都为
ϵ ∣ A ( s ) ∣ \frac{\epsilon}{|A(s)|} \quad A(s)ϵ
ϵ-greedy平衡了利用(exploitation)和探索(exploration),其中选取动作值函数最大的部分为利用,其他非最优动作仍有概率为探索部分。
π ∗ ( a ∣ s ) = { 1 − ϵ + ϵ ∣ A ( s ) ∣ , if a =  arg ⁡ max ⁡ a Q ( s , a ) 0 , if  a ≠ arg ⁡ max ⁡ a Q ( s , a ) \pi ^*(a|s) = \begin{cases} {1-\epsilon+\frac{\epsilon} {|A(s)|} \quad}, & \text {if a = $\arg\max_{a} Q(s,a)$} \\ 0, & \text {if $a \neq \arg\max_{a} Q(s,a)$} \end{cases} π(as)={1ϵ+A(s)ϵ,0,if a = argmaxaQ(s,a)if a̸=argmaxaQ(s,a)

[3]. 高斯策略

一般高斯策略可以写成
π θ = μ θ + ϵ , ϵ   N ( 0 , σ 2 ) \pi_\theta = \mu_\theta + \epsilon, \epsilon~N(0,\sigma^2) πθ=μθ+ϵ,ϵ N(0,σ2)
其中μ为确定性部分,ϵ为零均值的高斯随机噪声。高斯策略也平衡了利用和探索,其中利用由确定性部分完成,探索由ϵ完成。高斯策略在连续系统的强化学习中应用广泛。

[4]. 玻尔兹曼分布。

对于动作空间是是离散的或者动作空间并不大的情况,可采用玻尔兹曼分布作为随机策略,即:
π ( a ∣ s , θ ) = e x p ( Q ( s , a , θ ) ) ∑ b e x p ( h ( s , b , θ ) ) \pi(a|s,\theta) = \frac{exp(Q(s,a,\theta))}{\sum _bexp(h(s,b,\theta))}\quad π(as,θ)=bexp(h(s,b,θ))exp(Q(s,a,θ))
其中Q为动作值函数。该策略的含义是,动作值函数大的动作被选中的概 率大,动作值函数小的动作被选中的概率小。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值