强化学习第二版
ThousandsOfWind
这个作者很懒,什么都没留下…
展开
-
强化学习策略梯度梳理2 - AC(附代码)
策略梯度梳理 ACActor-CriticActor-Critic Policy Gradient (QAC)QAC with shared networkone-step AC主要参考文献 Reinforcement Learning: An introduction,Sutton主要参考课程 Intro to Reinforcement Learning,Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.gitAct原创 2020-07-07 13:26:16 · 1070 阅读 · 0 评论 -
强化学习策略梯度梳理1 - REINFORCE(附代码)
策略梯度梳理策略梯度(PG)策略梯度(PG)基础 以REINFORCE为例主要参考文献 Reinforcement Learning: An introduction,Sutton主要参考课程 Intro to Reinforcement Learning,Bolei Zhou原创 2020-07-06 13:01:08 · 2812 阅读 · 0 评论 -
强化学习第二版(翻译)第一章 导论 第四节 局限性和适用范围 1.4 Limitations and Scope
从前面的讨论中,应该清楚的是,强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入,也作为模型的输入和输出。非正式地,我们可以把状态看作是传达给代理的某种特定时期“环境如何”的信号。状态的形式定义在第3章中给出的马尔可夫决策过程的框架中给出的。然而,更普遍的是,我们鼓励读者遵循非正式的含义,并将状态视为代理对其环境所能获得的任何信息。实际上,我们假设状态信号是由某些预处理系统产...翻译 2018-03-29 16:27:17 · 1466 阅读 · 1 评论 -
强化学习第二版(翻译)第一章 导论 第三节 强化学习的要素 1.3 Elements of Reinforcement Learning
在代理和环境之外,强化学习系统一般有四个主要元素:一个策略,收益信号,价值函数,和一个可选的环境模型。 策略定义了学习代理在给定时间内的行为方式。简单来说,政策是从环境到在这些状态下采取的行动的映射。它符合心理学中所谓的一系列刺激反应规则或关联。在某些情况下,策略可能是一个简单的函数或查找表,而在其他情况下,它可能涉及到大量的计算,如搜索过程。该策略是增强学习代理的核心,因为它本身就足以确定...翻译 2018-03-27 21:18:55 · 793 阅读 · 1 评论 -
强化学习第二版(翻译)第一章 导论 第二节 例子 1.2 Examples
思考其发展中的一些例子和可能的应用是理解强化学习的一个好方法。象棋大师落字。这个决定既出于他的计划——期待的回复和逆向回复,也出于对特定位置和移动及时直觉的判断。自适应控制器实时调节炼油厂操作的参数。控制器在指定的边际成本的基础上权衡产量/成本/质量达到最优化,而不严格遵守由工程师提出的初始值。一头瞪羚在出生后几分钟挣扎着站起来。半小时后,它就能以每小时20英里的速度飞奔。一个家政移动机器...翻译 2018-03-27 20:24:58 · 1194 阅读 · 1 评论 -
强化学习第二版(翻译)第一章 导论 第一节 强化学习 1.1 Reinforcement Learning
强化学习是就是在学习怎么做才能最大化奖励信号,既如何建立情景-动作映射(map situations to actions)。学习者没有被告知应该采取什么行动,而是必须通过尝试找到获得最大的回报的动作。在最有趣和最具挑战性的情况下,行动可能不仅影响眼前的收益,而且影响下一个情景,并由此影响所有后续的收益。试错搜索(trial-and-error search)和延迟收益是强化学习最重要的两...翻译 2018-03-26 18:12:18 · 2461 阅读 · 1 评论 -
强化学习第二版(翻译)第一章 导论 第六节 小结 1.6 Summary
强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习,而不依赖于监督或完整的环境模型。在我们看来,强化学习是第一个认真处理在学习与环境的互动时产生的计算问题,以实现长期目标的第一个领域。 强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用,包括状态、动作和收益。这个框架用简单的方法来表示人工智能...翻译 2018-04-01 10:07:33 · 671 阅读 · 0 评论 -
强化学习第二版(翻译)第一章 导论(前言)Chapter 1 Introduction
当我们思考学习的本质时,我们首先想到的是通过与环境互动来学习。当婴儿玩耍时,挥舞手臂或四处看,它没有明确的老师,但他可以通过直接的感觉与环境联系。他可以通过这种联系获得大量关于因果关系,行动的结果,以及如何实现目标的信息。在我们的生活中,这样的交流无疑是我们的环境和我们自己知识的主要来源。无论我们是学开车还是交谈,我们都可以敏锐的意识到我们的环境对我们所做的事情将作出什么样的反应,并且我们...翻译 2018-03-26 11:39:30 · 725 阅读 · 0 评论 -
强化学习第二版(翻译)第二版前言
(由百度翻译修改而来,尽量保证逻辑通顺,建议以原文为主) 自本书第一版出版以来的二十年里,人工智能取得了巨大的进步,这在很大程度上得益于机器学习的进步,包括强化学习的进步。虽然现有的令人印象深刻的计算能力是这些进步的主要原因,但理论和算法的新发展也推动了这些力量的发展。面对这一进步,我们的1998本书的第二版早就应该出现了,我们终于在2013开始了这个项目。我们的第二版的目标与我们的第一个目...翻译 2018-03-26 00:02:04 · 4322 阅读 · 0 评论 -
强化学习第二版(翻译)第一章 导论 第五节 拓展例子:井字棋 1.5 An Extended Example: Tic-Tac-Toe
(注:尝试了很多次就是没有办法发全文,迷)为了说明强化学习的一般概念,并与其他方法进行对比,我们接下来将更详细地考虑一个示例。 想想我们熟悉的孩子玩的井字棋。棋手在三行三列的棋盘上博弈,一个棋手下X,另一个下O。若X或O的连续三个棋子落于一行或一列或同一斜线上则获胜;若棋盘被填满也不能决出胜负则为平局。让我们假设,我们是在和一个不完美的棋手比赛,他的战术有时是不正确的,并且允许我们获...翻译 2018-03-30 16:16:55 · 1991 阅读 · 0 评论