Reinforcement Learning:An Introduction 读书笔记- Chapter 1

Chapter1 The Reinforcement Learning Problem

增强学习:是一种从环境中进行学习的方法,它比起其他机器学习的方法更加目标导向并且着重交互。

1.1 Reinforcement Learning

增强学习学的是如何为场景选择动作(action),以便使得回报(reward)最大化
增强学习从一个完整(complete),交互(interactive),向目标努力的(goal-seeking)agent开始

增强学习的三大特征:

  1. 闭环(closed-loop):之前选择的action会影响之后的输入
  2. 未告知哪个action可选:只能一个个尝试以得到最大的reward
  3. 影响深远:一个action不只影响到直接结果,可能对后续很长一段时间的结果都有影响。

增强学习不同于监督学习也不同于非监督学习

监督学习是通过一系列外部数据进行训练,使得整个系统可以推断出不存在于训练集中的一些动作的回应
非监督学习是为了找到隐藏的结构,而强化学习是为了最大化收益。

增强学习的挑战

平衡探索和已知。
已知(exploit):已经被尝试过的很有效率的action
探索(explore): 还未尝试过的action

1.2 Examples

增强学习是最接近人学习方式的一种机器学习。生活中的例子有很多包括棋手下棋、机器人决定是否要去清扫某个房间等等。他们的共同点在于,他们采取的action会对环境产生影响,但都不知道自己现在采取的action会对之后产生什么影响,所以必须频繁观察环境,但是他们可以很容易知道自己是否在接近自己定下的目标。在所有的例子中,对象都可以通过不断获取经验来提高他们的表现。

1.3 Elements of Reinforcement Learning

策略(policy)

策略定义了学习者在某个时刻的表现。

回报信号(reward signal)

回报定义了增强学习问题的目标。增强学习的目标就是使得reward最大化,而reward signal就说明了某个action对于目标而言有利还是有害。
reward signal是更改policy的基础,如果回报低,下次遇到相同的情况,agent就会采取不同的action。

价值函数(value function)

一个状态的value是一个agent所有reward的总和。一般来说reward比value更重要。但是在评估一个action时我们往往会选择有比较高value的action,因为它带来的是长期的效益。

模型(model)

阐明环境将会如何表现。给定state和action,model会给出下一个state和返回的reward。利用models来解决增强学习的方法为model-based method,反之叫做model-free method。

1.4 Limitations and Scope

本书大部分都在讲如何得到value function

演化法(evolutionary methods)

不需要value function。让不同的agent采取不同的policy,再对reward进行评估,找到reward最大的policy。
对于policy比较小,有一定结构性,或有足够的时间进行搜索的情况比较友好。还对agent不能准确感知环境状态的情况比较有效。
总体比较没效率,本书一般不讨论

增强学习并不一定能达到最优

尝试最大化回报并不意味着可以得到最大回报。

1.5 An Extended Example: Tic-Tac-Toe

不利用value function的做法:

比如传统的minmax和之前的演化法

利用value function的做法:

  1. 建立一张数据表,每个数据都代表着在某个状态下获胜的可能性。
  2. 在一开始时将三个X在一排的value设为1,三个O在一排的value设为0,其他情况给予初始值0.5
  3. 进行多场游戏,大部分时候我们是选择value最大的下法,但是我们偶尔也随机选择走法,作为探索下法(exploratory moves)。
  4. 在贪心选择时,更新之前状态的value
    V(s)V(s)+α[V(s)V(s)]

    α是步长,这种更新方法称为temporal-difference
  5. 可以通过改变α慢慢趋向于0使得这个方法收敛到一个最优策略;也可以不改变α使得策略不断改变。

增强学习的主要特性:

  1. 在与环境交互时学习
  2. 有明确的目标,好的策略要求考虑到之前一些行为延后的回报。
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Gam
### 回答1: 《强化学习导论》(Reinforcement Learning: An Introduction)是Richard S. Sutton和Andrew G. Barto合作编写的一本经典教材,是强化学习领域的一本重要参考书。该书系统地介绍了强化学习的基本概念、算法和应用。 这本书分为三个部分。第一部分概述了强化学习的基本概念和问题,介绍了强化学习的基本元素:智能体、环境、状态、动作、奖励等,并讨论了不同类型的强化学习问题。第二部分重点介绍了标准强化学习问题的解决方法,包括动态规划、蒙特卡罗方法和时间差分学习等。通过这些方法,可以学习到如何最大化累积奖励来达到特定目标。第三部分则讨论了强化学习中的其他重要主题,如函数近似学习、策略梯度方法、探索与利用的平衡等。 这本书有几个显著的特点。首先,它以直观的例子和图解介绍了强化学习的基本概念,使得读者能够更容易地理解和掌握相关知识。其次,书中提供了大量的算法和伪代码,方便读者实际操作和实现。此外,书中还包含了丰富的练习题和案例研究,可以帮助读者巩固学习成果和应用知识。 《强化学习导论》被广泛应用于学术界和工业界,对于研究者、学生和工程师都具有重要的参考价值。它为读者提供了一个系统和全面的学习路径,帮助他们深入理解强化学习的原理和方法,并在实际问题中应用和发展强化学习技术。通过阅读《强化学习导论》,读者将能够了解强化学习的基本思想,熟悉常用的解决方法,并能够运用这些知识解决实际问题,为相关领域的研究和应用做出贡献。 ### 回答2: 《强化学习导论》(Reinforcement Learning: An Introduction)是一本经典的强化学习教材,由Richard S. Sutton和Andrew G. Barto合著。 该书的主要目的是介绍强化学习的基本概念、方法和算法。强化学习是一种机器学习的分支,其中智能体通过与环境的交互来学习最佳行动策略。与传统的监督学习和无监督学习不同,强化学习的训练过程主要基于奖励信号的反馈。 《强化学习导论》的内容涵盖了强化学习的基础知识和重要概念。首先,书中介绍了马尔可夫决策过程(Markov Decision Process,MDP)作为强化学习问题的数学框架。然后详细介绍了值函数和策略的概念,以及如何通过值函数和策略来指导智能体的学习和决策过程。 该书还介绍了各种强化学习方法,如蒙特卡罗方法、时序差分学习和Q-learning等。这些方法用于解决基于模型(model-based)和非基于模型(model-free)的强化学习问题。每种方法的优点、局限性和适用场景都有详细阐述。 此外,《强化学习导论》还提供了大量的实例和案例研究,以帮助读者加深对强化学习理论的理解。书中还包含了许多练习题和算法伪代码,读者可以通过实践来巩固所学的知识。 总之,《强化学习导论》是一本系统全面介绍强化学习理论和方法的经典教材。它不仅适合作为强化学习领域的入门读物,也适合作为学术界和工业界从业人员的参考书籍。 ### 回答3: 《强化学习:一种介绍》(Reinforcement Learning: An Introduction)是由Richard S. Sutton和Andrew G. Barto合著的一本权威教材,详细介绍了强化学习的原理和应用。 该书首先从强化学习的基本概念入手,解释了强化学习与其他机器学习方法的区别。强化学习是一种学习代理如何通过与环境的交互来最大化奖励的方法。与监督学习和无监督学习不同,强化学习的代理在无人指导的情况下进行学习,通过不断试错来逐步提升策略的质量。 书中详细介绍了强化学习中的基本要素:环境、状态、动作和奖励。同时,书中还介绍了多种强化学习算法,包括动态规划、蒙特卡洛方法和时序差分学习等。这些算法分别适用于不同类型的问题和环境,读者可以根据具体情况选择合适的算法进行应用。 此外,书中还介绍了强化学习中的进一步概念,如函数逼近和价值函数等。函数逼近是解决大规模问题的关键技术,而价值函数则用于评估状态或策略的质量。通过这些进一步的概念,读者可以深入理解强化学习的工作原理,并应用于解决复杂实际问题。 《强化学习:一种介绍》是一本深入浅出、权威且易读的教材,适合学习强化学习的初学者和相关领域的研究人员。无论是对于计算机科学、人工智能还是机器学习感兴趣的读者,该书都提供了一个良好的入门指南,帮助读者理解并应用强化学习的基本原理和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值