强化学习中常用的随机策略

最新推荐文章于 2024-08-05 16:30:51 发布

静_流

最新推荐文章于 2024-08-05 16:30:51 发布

阅读量9.6k

点赞数 2

分类专栏：【算法】强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hiwallace/article/details/81909570

版权

【算法】强化学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

随机策略可以理解为是概率分布，常用的有以下几种：

贪婪策略

π * (a | s) = {1 i f a = a r g a \in A m a x q * (s, a) 0 o t h e r w i s e

$\pi_*(a|s)=\begin{cases} 1　　if　a=arg_{a \in A} max q_*(s,a)\\ 0　　otherwise\\ \end{cases}$
贪婪策略是一个确定性策略，即只有在使得动作值函数

q∗(s,a) q ∗ ( s , a ) $q_*(s,a)$ 最大的动作处取概率为1，选择其他动作的概率为0

e-greedy策略

π (a | s) \leftarrow {1 - ϵ + ϵ | A ( s ) | i f a = a r g m a x a Q (s, a) ϵ | A ( s ) | i f a \neq a r g m a x a Q (s, a)

$\pi(a|s) \leftarrow \begin{cases} 1-\epsilon+\frac{\epsilon}{|A(s)|}　　if　a=argmax_a Q(s,a)\\ \frac{\epsilon}{|A(s)|}　　if　a \neq argmax_a Q(s,a)\\ \end{cases}$

ϵ−greedy ϵ − g r e e d y $\epsilon -greedy$ 策略是强化学习最基本最常用的随机策略，其含义是选取使得动作值函数最大的动作的概率为

1−ϵ+ϵ|A(s)| 1 − ϵ + ϵ | A ( s ) | $1-\epsilon+\frac{\epsilon}{|A(s)|}$ ，而其他动作的概率为等概率，都为

ϵ|A(s)| ϵ | A ( s ) | $\frac{\epsilon}{|A(s)|}$ 。

ϵ−greedy ϵ − g r e e d y $\epsilon -greedy$ 策略平衡了利用和探索，其中选取动作值函数最大的部分为利用，其他非最优动作仍有概率为探索部分

高斯策略

一般高斯策略可以写成 $\pi_{\theta}=\mu_{\theta}+\epsilon，\epsilon \sim N(0,\sigma^2)$ 。其中 $\mu_{\theta}$ 为确定性部分， $\epsilon$ 为零均值的高斯随机噪声。高斯策略也平衡了利用和探索，其中利用由确定性部分完成，探索有 $\epsilon$ 完成。高斯策略在连续系统的强化学习中应用广泛。

玻尔兹曼分布

对于动作空间是离散的或者动作空间并不大的情况，可采用玻尔兹曼分布作为随机策略，即

π (a | s, θ) = e x p ( Q ( s , a , θ ) ) \sum b e x p ( h ( s , b , θ ) )

$\pi(a|s,\theta)=\frac{exp(Q(s,a,\theta))}{\sum_b exp(h(s,b,\theta))}$
其中

Q(s,a,θ) Q ( s , a , θ ) $Q(s,a,\theta)$ 为动作值函数，该策略的含义是动作值函数大的动作被选中的概率大，动作值函数小的动作被选中的概率小

关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。