Reinforcement Learning——Different Policies

最新推荐文章于 2024-07-19 22:36:19 发布

周某某的blog

最新推荐文章于 2024-07-19 22:36:19 发布

阅读量457

点赞数

分类专栏：强化学习文章标签： action 算法

本文链接：https://blog.csdn.net/qq_18996621/article/details/46399571

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

强化学习是基于与环境的交互来获取最佳策略。
本文将介绍几种基于某个状态下Q(a)值策略选择的方法。
Q(a)计算公式如下：

Q t (a) = r 1 + r 2 + \dots \dots + r k a k a

$Q_t(a)=\frac{r_1+r_2+……+r_{k_a}}{k_a}$
ri表示第i次action的reward，Qt(a)表示第t次action时a的estimated value,ka表示在t之前a共被选择ka次。
当选择次数足够多时Qt(a)将收敛于Q*(a)，Q*(a)表示action a真正的action value。

为了简化问题，我们只考虑在一个状态下的情况,不考虑连续多个状态下action的选择。

选择action时的策略：

一、greedy method

每次选择estimated value 最高的action
缺点：可能会忽略潜在的可能表现得更好的action。

二、ε - greedy method

设置参数ε，每次选择action时，都有ε的几率随机选择一个action。
我们比较ε=0.1和0.01时的情况，当ε=0.1时，通常更早找到最优action，但是选择最优action的概率不会超过91%，当ε=0.01时，收敛较慢，但在average reward 和选择optimal action的概率上都优于0.1时。（可做实验验证）

三、Softmax Action Selection

每次选择action时,action被选择的概率为一个graded function，estimated value 最高的被选择的概率最高，其余被选择的概率随着estimated value降低而降低。

e Q t ( a ) / τ \sum n b = 1 e Q t ( a ) / τ

$e^{Q_t(a)/\tau}\over{\sum_{b=1}^n e^{Q_t(a)/\tau}}$
我们选择Gibbs分布作为一个例子(当然可以选择其他分布)，τ是一个正数参数，τ越大就越近似于等概率分布，而当τ趋近于0时，softmax action selection就变成了greedy action selection。

显然ε 值得设定更为容易，τ则需要考虑action value 的可能值与e指数的问题。
但关于ε - greedy method和Softmax Action Selection孰优孰劣并没有一个定论，需要根据具体情况来看，Reinforcement Learning需要的正是exploration和exploitation之间的平衡。

周某某的blog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning——Different Policies

Evaluative Feedback 不同于instructive feedback,Evaluative Feedback完全取决于当前action，而instructive feedback完全独立于action，与action 无关。为了简化问题，我们只考虑在一个状态下的情况,不考虑连续多个状态下action的选择。Qt(a)=r1+r2+……+rkakaQ_t(a)=\frac{r_1
复制链接

扫一扫