Reinforcement Learning An Introduction~Action-value Methods

最新推荐文章于 2022-03-03 19:54:44 发布

coolsunxu

最新推荐文章于 2022-03-03 19:54:44 发布

阅读量258

点赞数

分类专栏： Reinforcement learning 文章标签：强化学习

Reinforcement learning 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

2.2 行为值方法

我们开始考察一些简单的用于估计行为值并且以此来进行行为选择的方法，叫做行为值方法。回想一下行为的真值表示当行为被选择时获得的平均回报。一个自然的想法是通过行为被选择后获得的平均值来估计行为值：

$Q_{t}\doteq \frac{sum of rewards when a taken prior to t}{number of times a taken prior to t}= \frac{\sum_{i=1}^{t-1}R_{i}\cdot\mathbb{I}_{A_{i}=0} }{\sum_{i=1}^{t-1}\mathbb{I}_{A_{i}=0}}$

其中表示如果predicate为真，那么l ，如果predicate为假，那么。如果分母为0，定义是一些默认值，比如。当分母趋近无穷时，由大数定律的收敛到。我们称之为抽样均值方法。当然这只是估计值函数的一种简单方法，并不一定是最好的。尽管如此，让我们姑且停留在这个方法，并且转到如何利用值估计进行行为选择的问题。

最简单的选择规则是选择那个具有最高的行为值估计的行为，也就是在前面的对局中选择一个贪婪行为。如果存在多个贪婪行为，则可以以任意方式（可能是随机的）在它们之间进行选择。我们把这个贪婪的动作选择方法写成：

其中表示随后的表达式最大化的动作a。这种方法总是利用当前知识来最大化立即回报；而不考虑那些表面上的次优的行为是否可能会更好。一个简单的替代策略是大部分时间按照贪婪算法选择行为，但是偶尔，比如以一个小的概率选择一个均匀的、独立于估计行为值的随机行为。我们称这种近似行为策略选择规则为：ε-greedy 方法。这种方法的优点是，当局数无限增长时，每一个行为都会被抽样无限次，从而保证对于所有的a都有收敛到。这当然意味着选择最优行为的概率收敛到比大的值，也即是基本稳定。但是这只是渐进的保证，对于方法的实际效果知之甚少。