![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 84
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
An Analysis of Temporal-Difference Learning with Function Approximation
An Analysis of Temporal-Difference Learning with Function ApproximationII. DEFINITION OF TEMPORAL-DIFFERENCE LEARNING在这一节中,我们精确地定义了时间差分学习的性质,并将其应用于infinite-horizon discounted马尔科夫链的成本–目标函数的近似。虽然该方法以及我们随后的结果适用于具有相当普遍的状态空间的马尔科夫链,但我们将注意力限制在状态空间是可数的情况下。这使我们能够原创 2021-12-20 19:50:40 · 380 阅读 · 0 评论 -
# Chapter 5
Chapter 5Gradient Temporal-Difference Learning with Linear Function Approximation本章提供了线性函数近似情况下梯度-TD算法的核心思想和理论结果。在这里,我们在Baird(1995;1999)的工作基础上,探讨了用于线性函数逼近的时差学习的真正随机梯度下降算法的发展。特别是,我们引入了三种新的TD算法,与线性函数逼近和off-policy训练兼容,其复杂度仅以函数逼近器的大小为线性扩展。第一种算法,GTD,估计TD(0)算原创 2021-12-13 00:05:04 · 1179 阅读 · 0 评论 -
Chapter 4
Chapter 4Off-Policy Formulation of Temporal-Difference LearningTD学习的关键特征之一是它能够从不完整的序列中学习而不需要等待结果。这个关键特征,使TD方法能够single state-state transitions中学习(最小的经验片段)。事实证明,我们可以利用这个独特的属性来做off-policy学习。在本章中,我们为时差学习提供了一个off-policy表述,该表述基于从根据agent的行为策略产生的数据中进行的子采样1,即从轨迹原创 2021-12-12 22:00:42 · 199 阅读 · 0 评论 -
Chapter 3
Chapter 3Objective Function for Temporal-Difference Learning一个目标函数是一个可修改参数θ的函数,我们通过更新θ来求其最小值。在(随机)梯度下降中,对θ的更新与目标函数相对于θ的负(样本)梯度成正比。在标准RL中,目标是找到满足Bellman方程的解。然而,在函数逼近的情况下,如何将Bellman方程与值函数逼近相结合尚不清楚。在本章中,我们寻求一个目标函数(针对政策评估的情况),其最小值提供了近似值函数的合理解。我们提出了一个Bellman原创 2021-12-12 00:45:59 · 300 阅读 · 0 评论 -
# Gradient Temporal-Difference Learning Algorithms
Gradient Temporal-Difference Learning AlgorithmsChapter 22.3 Temporal-difference learningTD学习是预测的一个关键思想,在强化学习中起着核心作用(Sutton, 1988; Sutton and Barto, 1998)。它使用动态编程开发的bootstrapping 思想以及蒙特卡洛思想。经典的TD方法,如TD(λ)、Sarsa和Q-learning是简单的、sample-based、online和increme原创 2021-12-11 23:52:28 · 571 阅读 · 0 评论 -
GQ(λ)
GQ(λ): A general gradient algorithm for temporal-difference prediction learning with eligibility tracesThe GQ(λ) algorithm在本节中,我们将介绍GQ(λ)算法, for off-policy learning about the outcomes and transients of options,换句话说,intra-option GQ(λ)用于学习从广泛的(可能是普遍的option原创 2021-12-09 10:44:05 · 377 阅读 · 0 评论 -
资格迹-Eligibility Traces
资格迹-Eligibility Traces原创 2021-12-09 10:33:36 · 249 阅读 · 0 评论 -
Horde: A Scalable Real-time Architecture for Learning Knowledge
Horde: A Scalable Real-time Architecture for Learning Knowledge from Unsupervised Sensorimotor Interaction论文如何学习、表示和使用一般意义上的世界知识,仍然是人工智能(AI)的一个关键的开放性问题。有一些基于first-order predicate logic和贝叶斯网络的高级表示语言,具有很强的表现力,但在这些语言中,知识很难学习,而且使用起来计算成本很高。还有一些低级别的语言,如微分方程和状态原创 2021-12-08 20:13:23 · 794 阅读 · 0 评论 -
gradient-TD
A Convergent O(n) Algorithm for Off-policy Temporal-difference Learning with Linear Function Approximation我们介绍了第一个时间差分学习算法,对于任何有限马尔科夫决策过程、行为策略和目标策略,该算法在线性函数近似和Off-policy训练下是稳定的,其复杂度在参数数量上呈线性扩展。我们考虑的是一个即定的策略评价环境,其中的数据不需要来自on-policy的经验。梯度时差(GTD)算法估计了TD(0)算法原创 2021-12-07 17:25:40 · 426 阅读 · 0 评论 -
Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation
Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation论文Sutton, Szepesvari和Maei(2009)最近推出了第一个compatible with both linear function approximation and off-policy training,其复杂度仅与函数逼近器的大小成线性比例。尽管他们的gradient temporal原创 2021-12-07 10:46:51 · 655 阅读 · 0 评论 -
Deterministic Policy Gradient Algorithms
Deterministic Policy Gradient Algorithms在本文中,我们考虑了具有连续行动的强化学习的确定性策略梯度算法。确定性策略梯度有一个特别吸引人的形式:它是action-value函数的预期梯度。这种简单的形式意味着确定性策略梯度的估计比通常的随机策略梯度要有效得多。为了确保充分的探索,我们引入了一个off-policy actor-critic算法,从exploratory behaviour policy中学习一个确定性的目标策略。我们证明,在高维行动空间中,确定性的策略原创 2021-12-03 17:55:36 · 228 阅读 · 0 评论 -
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING我们将Deep Q-Learning成功的基础思想调整到连续行动领域。我们提出了一种基于确定性策略梯度(deterministic policy gradient)的actor-critic、model-free的算法,可以在连续行动空间上运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如车杆摆动、灵巧的操纵、腿部运动和汽车驾驶。我们的算法能够找到一原创 2021-12-03 17:40:01 · 848 阅读 · 0 评论 -
Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning我们提出了第一个利用强化学习直接从高维感官输入成功学习控制策略的深度学习模型。该模型是一个卷积神经网络,用Q-learning的一个变种进行训练,其输入是原始像素,其输出是一个估计未来奖励的价值函数。我们将我们的方法应用于街机学习环境中的七个Atari 2600游戏,没有调整结构或学习算法。我们发现,它在其中6个游戏上的表现超过了以前所有的方法,在其中3个游戏上超过了人类专家。1 Introduction学习直原创 2021-12-03 15:46:03 · 519 阅读 · 0 评论 -
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING我们将Deep Q-Learning成功的基础思想调整到连续行动领域。我们提出了一种基于确定性策略梯度(deterministic policy gradient)的actor-critic、model-free的算法,可以在连续行动空间上运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如车杆摆动、灵巧的操纵、腿部运动和汽车驾驶。我们的算法能够找到一原创 2021-12-03 11:59:16 · 153 阅读 · 0 评论 -
强化学习AC、A2C、A3C算法
强化学习AC、A2C、A3C算法原创 2021-12-02 17:30:36 · 531 阅读 · 0 评论 -
Deep Reinforcement Learning for Automated Stock Trading An Ensemble Strategy
Deep Reinforcement Learning for Automated Stock Trading An Ensemble Strategy股票交易策略在投资中起着关键作用。然而,在复杂多变的股票市场上设计一个有利可图的策略是很有挑战性的。在本文中,我们提出了一种采用深度强化方案的集合策略,通过最大化投资收益来学习股票交易策略。我们训练了一个深度强化学习代理,并使用三种actor-critic based算法获得了一个集合交易策略。近端策略优化(PPO)、Advantage Actor Cri原创 2021-11-24 01:11:51 · 1033 阅读 · 0 评论 -
Policy Gradient Methods for Reinforcement Learning with Function Approximation
Policy Gradient Methods for Reinforcement Learning with Function Approximation1 Policy Gradient Theorem在时间t∈{0,1,2,...}t\in\{0,1,2,...\}t∈{0,1,2,...}的state, action, reword表示为st∈S,at∈A,rt∈Rs_t\in \mathcal S,a_t\in \mathcal A,r_t\in \mathcal Rst∈S,at∈A,r原创 2021-11-08 01:57:39 · 412 阅读 · 0 评论 -
[Reinforcement Learning] Policy Gradient Methods
[Reinforcement Learning] Policy Gradient Methods 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略进行控制,比如 ϵ-greedy。 那么我们简单回顾下 RL 的学习目标:通过 agent 与环境进行交互,获取累计回报最大化。既然我们最终要学习如何与环境交互的策略,那么我们可以直接学习策略吗,而之前先近似价值函数,再通过贪婪策略控制的思路更像是"曲线救国"。 这就是本篇文章的内容,我们如何直接来学习策略,用数学的转载 2020-07-09 16:33:26 · 124 阅读 · 0 评论 -
[Reinforcement Learning] Value Function Approximation
[Reinforcement Learning] Value Function Approximation为什么需要值函数近似?之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢?其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取的:表中每一个状态 s 均对应一个 V(s)或者每一个状态-动作 <s,a>转载 2020-07-09 16:30:15 · 125 阅读 · 0 评论 -
[Reinforcement Learning] Model-Free Prediction
[Reinforcement Learning] Model-Free Prediction蒙特卡洛学习蒙特卡洛方法(Monte-Carlo Methods,简称MC)也叫做蒙特卡洛模拟,是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。其实本质就是,通过尽可能随机的行为产生后验,然后通过后验来表征目标系统。在Model-Free的情况下,MC在强化学习中的应用就是获取价值函数,其特点如下:MC 可以从完整的 episodes 中学习(no bootstrapping)MC 以均值来转载 2020-07-09 16:27:37 · 122 阅读 · 0 评论 -
[Reinforcement Learning] Model-Free Control
[Reinforcement Learning] Model-Free Control1 Introduction 第四章节的内容讲述了agent在不依赖模型的情况下如何进行预测,也就是求解在给定策略下的状态价值或行为价值函数。本章节则主要讲解在不基于模型的条件下如何通过agent的学习优化价值函数,同时改善自身行为的策略以最大化获得累积奖励的过程,这一过程也称作不基于模型的控制。 生活中有很多关于优化控制的问题,比如控制一个大厦内的多个电梯使得效率最高;机器人足球世界杯上控制机器人球员转载 2020-07-08 18:31:19 · 247 阅读 · 0 评论 -
[Reinforcement Learning] 动态规划(Planning)
[Reinforcement Learning] 动态规划(Planning)动态规划动态规划(Dynamic Programming,简称DP)是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于具有如下性质的问题:具有最优子结构(Optimal substructure)Principle of optimality appliesOptimal solution can be decomposed into subproblems重叠子问题(Ove转载 2020-07-08 18:24:12 · 194 阅读 · 0 评论 -
[Reinforcement Learning] 马尔可夫决策过程
[Reinforcement Learning] 马尔可夫决策过程阅读目录情节性任务 vs. 连续任务马尔可夫性马尔可夫过程马尔可夫奖赏过程马尔可夫决策过程Reference情节性任务 vs. 连续任务情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作为有限步骤的任务。连续任务(Continuing Tasks),所有的任务不能分解,可以看作为无限步骤任务马尔可夫性引用维基百科对马尔可夫性的定义:马尔可夫性:当一个随机过程在给定现在转载 2020-07-08 18:20:00 · 158 阅读 · 0 评论 -
强化学习介绍
强化学习介绍从本质上看,强化学习是一个通用的问题解决框架,其核心思想是 Trial & Error。强化学习可以用一个闭环示意图来表示强化学习四元素策略(Policy):环境的感知状态到行动的映射方式。反馈(Reward):环境对智能体行动的反馈。价值函数(Value Function):评估状态的价值函数,状态的价值即从当前状态开始,期望在未来获得的奖赏。环境模型(Model):模拟环境的行为。强化学习的特点起源于动物学习心理学的试错法(trial-and-error),转载 2020-07-08 18:05:16 · 2378 阅读 · 0 评论