Reinforcement Learning:An Introduction第二章读书笔记

Part I:Tabular Solution Methods

在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中,都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的,下一部分模糊的解决,但适用范围更广。

这一部分的第一章介绍了强化学习的特殊例子,它只有一种情况,被称作bandit问题。第二章介绍了延续到本书剩余部分的通用问题形式化——有限马尔科夫决策过程。他的核心思想包括bellman equation 和value function。

接下来的三章介绍了解决有限马尔科夫问题的三类问题:动态编程,Monte Carlo method,和时序差分学习。每类方法都各有优缺点。

 

方法 评价
动态编程 可以发挥数学上计算优势(are well developed mathematically),但是需要一个完全准确地环境模型。
Monte Carlo methond 不需要环境模型,概念简单,但不适合步进计算。
时序差分算法 不需要环境模型,完全步进,但分析十分复杂。

接下来的两章如何结合三种方法来最大化效果。在前一章中我们介绍了如何通过 multi-step bootstrapping method 来吧Monte Carlo methon和时序差分学习的优势结合起来,最后一章介绍了时序差分学习如何跟模型学习和计划方法(如动态规划)结合来提供一个完全的统一的解决表式强化学习问题的方法。

Chapter 2 Multi_armed Bandits

强化学习与其他类型的学习最显著的特征是它靠训练的信息评定action而不是通过给出正确的action来被指导。评定性反馈(evaluative)完全根据采取的行动,而指导性反馈(instructive)和采取的行动是独立的。

在这一章我们以最简单的方式来研究评定性强化学习,只涉及一种情况(situation)。学习这种非关联(nonassociative)问题可以简化完全强化学习问题,并清晰地掌握评定性判定与指导性的不同和结合。

2.1 k臂赌博机问题(A k-armed Bandit Problem)

简单来说有k个不同的选择,选择后得到reward,目标是最大化reward。在今天"bandit problem"一般就代表这类问题。

每个action都有期望reward,称为the value of the action。

At: 表示在t步的action     q*(a):表示该action的期望reward    Qt(a) :estimate of the q*(a)

the greedy action:每次都选择最大的估计值的action,即max Qt(a).

explore :选择非贪婪action,非最大estimate,目标是改变该action的估计值,使之更接近真实q*(a).

有探索(explore)的方法通常开始时效果不好,但随着过程的继续,会有更好的效果。

与平衡explore和exploit有关的因素有:value of estimate的准确程度,不确定度,剩余步数。有许多复杂的方法来对该问题平衡。在本书中我们不关心复杂平衡算法的具体方式,而只需了解有平衡利用和探索这个问题就行。

2

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值