![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 95
静静的喝酒
静静的生活就好
展开
-
贝尔曼期望方程(Bellman Expectation Equation)
马尔可夫决策过程之贝尔曼期望方程目录回顾价值函数(Value Function)策略的具体表现形式如何判断一个策略π\piπ的优劣性 →\to→价值函数上一节介绍了马尔可夫奖励过程中(Markov Reward Process,MRP) 出现的概念,本节引入贝尔曼期望方程,讲述马尔可夫决策过程(Markov Decision Process, MDP)具体是如何实现的。原创 2022-05-17 21:11:34 · 5111 阅读 · 0 评论 -
贝尔曼最优方程(Bellman Optimality Equation)
贝尔曼最优方程目录回顾 + 补充逻辑场景设置贝尔曼最优方程最优策略与最优价值函数本节使用更新图的方式对Vπ(s)V_\pi(s)Vπ(s)和qπ(s,a)q_\pi(s,a)qπ(s,a)之间的关系进行详细说明,并在贝尔曼期望方程(Bellman Expectation Equation)基础上介绍贝尔曼最优方程(Bellman Optimality Equation)。原创 2022-05-19 20:41:19 · 10485 阅读 · 3 评论 -
强化学习预备知识-马尔可夫决策过程逻辑思路介绍
强化学习预备知识 - 马尔可夫决策过程逻辑思路介绍目录随机事件(Random Variables Events)随机变量(Random Variable)随机过程(Stochastic Process)马尔可夫过程/马尔可夫链(Markov Chain)马尔可夫奖励过程(Markov Reward Process,MRP)马尔科夫决策过程(Markov Decision Process, MDP)本章内容单从逻辑角度从随机事件到马尔可夫决策过程有一个清晰的逻辑认识后续章节会从数学和算法角度对马尔可夫奖励原创 2022-05-11 16:05:34 · 1089 阅读 · 0 评论 -
蒙特卡洛树搜索方法介绍——后台规划(background planning)与决策时规划(decision-time planning)
上一节介绍了优先级遍历算法(反向聚焦),本节将从规划执行时机的角度对算法进行解析——后台规划与决策时规划。原创 2022-08-06 16:11:10 · 365 阅读 · 0 评论 -
蒙特卡洛树搜索方法介绍——算力聚焦方法(二) 反向聚焦(优先级遍历)
上一节针对Dyna-Q算法执行过程中的问题,介绍了算力聚焦思想以及Dyna-Q+算法思路。本节将继续介绍基于算力聚焦思想的另一种算法——优先级遍历算法。原创 2022-08-05 17:36:48 · 340 阅读 · 0 评论 -
蒙特卡洛树搜索方法介绍——算力聚焦方法(一) Dyna-Q+
蒙特卡洛树搜索方法介绍——算力聚焦方法之Dyna-Q+引言回顾:$Dyna-Q$角度观察规划与学习的结合过程$Dyna-Q$算法中的缺陷求解强化学习任务的核心矛盾如何缓和矛盾——算力聚焦算力聚焦自身的矛盾探索(Exploration)与利用(Exploitation)$Dyna-Q+$算法假设构建对假设的解析引言上一节基于规划与学习的差异性介绍了Dyna−QDyna-QDyna−Q架构的具体算法过程。但从真实环境的角度观察,Dyna−QDyna-QDyna−Q架构同样存在各种问题,本节从Dyna−QDy原创 2022-08-04 22:45:49 · 824 阅读 · 0 评论 -
蒙特卡洛树搜索方法介绍——Q规划与Dyna-Q算法
上一节介绍了规划与学习的相关信息,并介绍了直接强化学习(Direct Reinforcement Learning)和间接强化学习(Indirect Reinforcement Learning),本节利用上述两种概念,介绍Q规划算法与Dyna-Q算法原创 2022-08-03 18:58:28 · 876 阅读 · 0 评论 -
蒙特卡洛树搜索方法介绍——规划与学习
本节将通过动态规划方法、蒙特卡洛方法、时序差分方法进行归纳,介绍规划与学习两种思想。原创 2022-07-31 16:50:03 · 710 阅读 · 0 评论 -
策略梯度方法介绍——确定性策略梯度定理
上一节我们介绍了行动者-评论家(AC)方法,其核心思想是将policy_based与value_based方法相结合,仅需要执行一次状态转移过程,就可立即进行策略改进。本节将继续沿用AC方法框架,介绍确定性策略梯度定理。......原创 2022-07-28 18:29:11 · 1328 阅读 · 5 评论 -
策略梯度方法介绍——行动者-评论家方法(Actor-Critic,AC)
上一节介绍了带基线的REINFORCE方法,从累积的rewards结果观察,虽然添加基线函数后收敛速度明显加快,但累积结果波动同样很高。针对该问题,介绍一个与基线函数方法相类似的方法——行动者-评论家方法(Actor-Critic,AC)...原创 2022-07-27 18:30:37 · 1571 阅读 · 0 评论 -
策略梯度方法介绍——带基线的REINFORCE
上一节介绍了蒙特卡洛策略梯度方法(REINFORCE)的推导过程,本节将介绍REINFORCE的一种优化方式——基于baseline的REINFORCE方法。原创 2022-07-27 10:40:57 · 1638 阅读 · 2 评论 -
策略梯度方法介绍——蒙特卡洛策略梯度方法(REINFORCE)
上一节介绍了∇J(θ)的求解过程的推导,本节将基于上述推导进行补充,构建更加泛化的表达式,从而引出REINFORCE算法的更新方程。原创 2022-07-23 16:05:47 · 2466 阅读 · 2 评论 -
策略梯度方法介绍——策略梯度定理推导过程
上一节介绍了Policy-Based强化学习方法的优势,并介绍了影响目标函数梯度的核心要素——状态分布。本节将使用状态分布对策略梯度定理进行表示。原创 2022-07-22 17:54:13 · 1913 阅读 · 3 评论 -
策略梯度方法介绍——Value-Based强化学习方法 VS Policy-Based强化学习方法
从本节开始,将介绍策略梯度方法求解强化学习任务。原创 2022-07-21 16:25:08 · 2090 阅读 · 1 评论 -
最大化偏差问题与Double Q-Learning(三)——双估计器方法与Double Q-Learning
上一节介绍了使用单估计器方法(Single Estimator)处理最大化偏差(Maximization Bias)现象,本节将介绍基于双估计器方法(Double Estimator)处理最大化偏差问题。原创 2022-07-19 18:41:09 · 785 阅读 · 0 评论 -
最大化偏差问题与Double Q-Learning(二)——消除最大化偏差的具体方法
上一节介绍了最大化偏差(Maximization Bias)的产生原因,本节将介绍消除最大化偏差的具体方法。原创 2022-07-15 17:37:49 · 710 阅读 · 0 评论 -
最大化偏差问题与Double Q-Learning(一)——最大化偏差问题介绍
本节将分两节介绍求解时序差分控制过程中算法出现的最大化偏差问题以及解决方法——Double Q learning算法。原创 2022-07-14 13:24:33 · 1225 阅读 · 0 评论 -
时序差分方法求解强化学习任务——期望SARSA
上一节介绍了使用Q-Learning方法求解时序差分控制问题。本节将介绍一个多种方法融合的求解方法——期望SARSA方法。原创 2022-07-12 15:24:19 · 592 阅读 · 2 评论 -
时序差分方法求解强化学习任务——基于离轨策略的时序差分控制(Q-Learning方法)
本节将介绍基于离轨策略的时序差分控制(Q-Learning算法),从算法执行过程角度对蒙特卡洛方法和时序差分方法在离轨策略中两者之间的差异。原创 2022-07-08 17:46:30 · 405 阅读 · 5 评论 -
时序差分方法求解强化学习任务——基于同轨策略的时序差分控制(SARSA算法)
上一节介绍了时序差分方法的策略评估过程以及相比于蒙特卡洛方法,时序差分方法的优势。本节将介绍时序差分方法中具有代表性的方法:基于同轨策略的时序差分控制——SARSA算法。原创 2022-07-07 15:27:17 · 586 阅读 · 1 评论 -
时序差分方法求解强化学习任务——时序差分方法介绍
前面介绍了使用蒙特卡洛方法求解强化学习任务。本节针对蒙特卡洛方法的弊端,介绍时序差分方法。原创 2022-07-01 17:46:27 · 603 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛控制
上一节介绍了离轨策略使用重要性采样方法对价值函数的求解过程,本节将介绍使用离轨策略方法求解蒙特卡洛控制过程。原创 2022-06-30 18:07:31 · 671 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估
上一节针对同轨策略(on-policy)方法中软性策略的缺陷,介绍了离轨策略(off-policy)。并针对离轨策略 采样难的问题,详细介绍了重要性采样(importance-sampling)。本节将介绍基于普通重要性采样和加权重要性采样的离轨策略方法实现蒙特卡洛策略评估............原创 2022-06-29 17:46:52 · 596 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——离轨策略与重要性采样介绍
上一节介绍了同轨策略(on-policy)的基本原理和公式推导。即便同轨策略可以通过避免试探性出发假设来表现蒙特卡洛控制问题,但是同轨策略同样存在缺陷。因此,我们从同轨策略缺陷的角度出发,介绍另外一种求解蒙特卡洛控制的方法——离轨策略(off-policy)。.........原创 2022-06-27 19:41:40 · 984 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——非试探性出发假设之同轨策略
上一节针对试探性出发假设的缺陷,介绍了基于非试探性出发假设的蒙特卡洛控制方法。该方法以试探所有可能发生的状态-动作二元组为目标,将迭代过程中的策略划分为行动策略(behaviour policy)和目标策略(target policy)。本节将介绍基于这两种策略的蒙特卡洛控制算法—同轨策略(on-policy)...原创 2022-06-25 16:30:52 · 465 阅读 · 1 评论 -
蒙特卡洛方法求解强化学习任务——基于非试探性出发假设的蒙特卡洛控制
上一节介绍了基于试探性出发假设的蒙特卡洛控制,本节将针对试探性出发假设带来的问题,如何绕过该假设的严苛条件,从而达到试探所有可能发生的状态-动作二元组的目标。原创 2022-06-24 17:32:16 · 589 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——基于试探性出发假设的蒙特卡洛控制
上一节介绍了使用蒙特卡洛方法近似求解状态-动作价值函数的优势和缺陷,并基于缺陷提出了试探性出发假设。本节将介绍如何基于试探性出发假设来解决蒙特卡洛控制问题。原创 2022-06-23 16:55:56 · 915 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——蒙特卡洛评估基本介绍
上一节介绍了使用蒙特卡洛方法对状态价值函数的近似求解过程。本节对蒙特卡洛控制(蒙特卡洛方法近似求解状态-动作价值函数)进行基本介绍。原创 2022-06-22 16:01:32 · 890 阅读 · 0 评论 -
蒙特卡洛方法求解强化学习任务——策略评估
上一节简单介绍了蒙特卡洛方法的基本思想,本节将介绍基于蒙特卡洛方法的策略评估过程原创 2022-06-17 17:18:30 · 983 阅读 · 5 评论 -
蒙特卡洛方法求解强化学习任务——蒙特卡洛方法介绍
本节从概率的统计定义、大数定律的角度介绍蒙特卡洛方法的思想,并简单介绍针对动态规划方法求解强化学习任务的问题和解决方法。原创 2022-06-11 16:02:10 · 1257 阅读 · 0 评论 -
动态规划求解强化学习任务——价值迭代
前面部分介绍了策略改进定理的理论推导和策略迭代求解策略\piπ的具体算法过程,本节将介绍动态规划求解强化学习任务最后一个模块——价值迭代。原创 2022-06-07 16:41:29 · 743 阅读 · 0 评论 -
动态规划求解强化学习任务——使用策略改进定理迭代求解策略π
上一节介绍了策略改进定理的推导过程,本节使用策略改进定理介绍迭代求解策略\piπ的算法过程。原创 2022-06-06 01:56:25 · 573 阅读 · 0 评论 -
动态规划求解强化学习任务——策略改进定理公式推导
前面两节讲到了在策略评估过程中使用解析和迭代两种方式在给定策略$\pi$的情况下求解最优价值函数。今天将介绍策略迭代的第二个部分:策略改进。原创 2022-05-31 16:18:54 · 1237 阅读 · 1 评论 -
动态规划求解强化学习任务——策略评估[迭代解]
本章将介绍使用迭代方式求解最优价值函数原创 2022-05-28 18:18:42 · 765 阅读 · 0 评论 -
动态规划求解强化学习任务——策略评估[解析解]
上一节我们提到,策略迭代(Policy Iteration)是动态规划(Dynamic Programming,DP)求解强化学习任务的一种方式,共包含两个部分:策略评估,策略改进。本节主要介绍:在策略评估过程中使用解析方式求解最优价值函数。原创 2022-05-24 16:16:33 · 1033 阅读 · 0 评论 -
使用动态规划求解强化学习任务——整体介绍
从本节开始将介绍**动态规划(Dynamic Programming,DP)** 思想求解强化学习任务。本节主要介绍以下两个方面: - **什么样的强化学习任务**可以使用动态规划思想求解? - 动态规划思想求解强化学习任务**包含哪些具体步骤**?原创 2022-05-23 10:45:31 · 729 阅读 · 0 评论