Reinforcement Learning:An Introduction第二章读书笔记

最新推荐文章于 2023-11-26 17:00:00 发布

VIP文章 reargarden

最新推荐文章于 2023-11-26 17:00:00 发布

阅读量1.5k

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_34719975/article/details/79933606

版权

Part I:Tabular Solution Methods

在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列，表来展示。在这些例子中，都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的，下一部分模糊的解决，但适用范围更广。

这一部分的第一章介绍了强化学习的特殊例子，它只有一种情况，被称作bandit问题。第二章介绍了延续到本书剩余部分的通用问题形式化——有限马尔科夫决策过程。他的核心思想包括bellman equation 和value function。

接下来的三章介绍了解决有限马尔科夫问题的三类问题：动态编程，Monte Carlo method,和时序差分学习。每类方法都各有优缺点。

方法	评价
动态编程	可以发挥数学上计算优势（are well developed mathematically）,但是需要一个完全准确地环境模型。
Monte Carlo methond	不需要环境模型，概念简单，但不适合步进计算。
时序差分算法	不需要环境模型，完全步进，但分析十分复杂。

接下来的两章如何结合三种方法来最大化效果。在前一章中我们介绍了如何通过 multi-step bootstrapping method 来吧Monte Carlo methon和时序差分学习的优势结合起来，最后一章介绍了时序差分学习如何跟模型学习和计划方法（如动态规划）结合来提供一个完全的统一的解决表式强化学习问题的方法。

Chapter 2 Multi_armed Bandits

强化学习与其他类型的学习最显著的特征是它靠训练的信息评定action而不是通过给出正确的action来被指导。评定性反馈（evaluative）完全根据采取的行动，而指导性反馈（instructive）和采取的行动是独立的。

在这一章我们以最简单的方式来研究评定性强化学习，只涉及一种情况（situation）。学习这种非关联（nonassociative）问题可以简化完全强化学习问题，并清晰地掌握评定性判定与指导性的不同和结合。

2.1 k臂赌博机问题（A k-armed Bandit Problem）

简单来说有k个不同的选择，选择后得到reward，目标是最大化reward。在今天"bandit problem"一般就代表这类问题。

每个action都有期望reward，称为the value of the action。

At：表示在t步的action q*(a)：表示该action的期望reward Qt(a) :estimate of the q*(a)

the greedy action:每次都选择最大的估计值的action，即max Qt(a).

explore ：选择非贪婪action,非最大estimate，目标是改变该action的估计值，使之更接近真实q*(a).

有探索（explore）的方法通常开始时效果不好，但随着过程的继续，会有更好的效果。

与平衡explore和exploit有关的因素有：value of estimate的准确程度，不确定度，剩余步数。有许多复杂的方法来对该问题平衡。在本书中我们不关心复杂平衡算法的具体方式，而只需了解有平衡利用和探索这个问题就行。

2

最低0.47元/天解锁文章

reargarden

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning:An Introduction第二章读书笔记

Part I:Tabular Solution Methods在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列，表来展示。在这些例子中，都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的，下一部分模糊的解决，但适用范围更广。这一部分的第一章介绍了强化学习的特殊例子，它只有一种情况，被称作bandit问题。第二章介...
复制链接

扫一扫