Part I:Tabular Solution Methods
在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中,都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的,下一部分模糊的解决,但适用范围更广。
这一部分的第一章介绍了强化学习的特殊例子,它只有一种情况,被称作bandit问题。第二章介绍了延续到本书剩余部分的通用问题形式化——有限马尔科夫决策过程。他的核心思想包括bellman equation 和value function。
接下来的三章介绍了解决有限马尔科夫问题的三类问题:动态编程,Monte Carlo method,和时序差分学习。每类方法都各有优缺点。
方法 | 评价 |
动态编程 | 可以发挥数学上计算优势(are well developed mathematically),但是需要一个完全准确地环境模型。 |
Monte Carlo methond | 不需要环境模型,概念简单,但不适合步进计算。 |
时序差分算法 | 不需要环境模型,完全步进,但分析十分复杂。 |
接下来的两章如何结合三种方法来最大化效果。在前一章中我们介绍了如何通过 multi-step bootstrapping method 来吧Monte Carlo methon和时序差分学习的优势结合起来,最后一章介绍了时序差分学习如何跟模型学习和计划方法(如动态规划)结合来提供一个完全的统一的解决表式强化学习问题的方法。
Chapter 2 Multi_armed Bandits
强化学习与其他类型的学习最显著的特征是它靠训练的信息评定action而不是通过给出正确的action来被指导。评定性反馈(evaluative)完全根据采取的行动,而指导性反馈(instructive)和采取的行动是独立的。
在这一章我们以最简单的方式来研究评定性强化学习,只涉及一种情况(situation)。学习这种非关联(nonassociative)问题可以简化完全强化学习问题,并清晰地掌握评定性判定与指导性的不同和结合。
2.1 k臂赌博机问题(A k-armed Bandit Problem)
简单来说有k个不同的选择,选择后得到reward,目标是最大化reward。在今天"bandit problem"一般就代表这类问题。
每个action都有期望reward,称为the value of the action。
At: 表示在t步的action q*(a):表示该action的期望reward Qt(a) :estimate of the q*(a)
the greedy action:每次都选择最大的估计值的action,即max Qt(a).
explore :选择非贪婪action,非最大estimate,目标是改变该action的估计值,使之更接近真实q*(a).
有探索(explore)的方法通常开始时效果不好,但随着过程的继续,会有更好的效果。
与平衡explore和exploit有关的因素有:value of estimate的准确程度,不确定度,剩余步数。有许多复杂的方法来对该问题平衡。在本书中我们不关心复杂平衡算法的具体方式,而只需了解有平衡利用和探索这个问题就行。