华东师范大学小崔-CSDN博客

原创 Reinforcement Learning - An Introduction手写总结Ch7-9

2020-08-24 16:51:04 152

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch12.1-Ch12.7

资格迹，在第七章的n步TD方法的基础之上，引入了一个短时记忆向量z，以及与之相对的长时记忆向量w，当参数w的一个分量参与计算并产生一个估计值时，对应的z的分量会瞬间升高，然后逐渐衰减，在资格迹归零前，如果发现了非零的TD误差，那么对应的w的分量就可以得到学习。在n步算法中资格迹的主要优势在于，其只需要追踪一个迹向量，而不需要存储最近的n个特征向量，学习也会持续并统一地在整个时间上进行，而不是延迟到整幕的结尾，并且遇到状态时也可马上进行学习而不需要n步的延迟。前向视图通过待更新的状态往前看，更新依赖于当前

2020-08-24 15:31:25 240

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch11.6-Ch11.10

11.6 贝尔曼误差是不可学习的事实证明，很多在强化学习中感兴趣的量，即使有无限多的数据，也时不可学习的，这些良定义的量在给定环境的内在结构时可以计算，但是不能从外部可观测的特征向量、动作和收益的序列中得到。事实上贝尔曼误差BE是不可学习的，考虑两个MRP:当两条边离开同一个状态时，两个转移都被认为时等概率发生的，数字表明了收益。事实上左边的MRP只有一个状态，随机产生0/2的流。而后边的MRP有两个状态，而两个状态对应产生的收益是确定的。但是从可观测数据上来看，两者是没有区别的，因为右边的MR

2020-08-22 13:11:58 350

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch11.1-Ch11.5

11.1 半梯度方法在第七章中描述了一系列表格型情况下的离线策略算法，转换成半梯度的形式可以简单地使用近似价值函数及其梯度，把对于一个数组的更新替代为对于一个权值向量的更新。单步的状态价值函数算法就是半梯度的离线策略TD(0)的更新方程，其中主要添加了一个新的参数：这个新的参数的确切定义取决于这个问题是分幕式的、带折扣的，还是持续性的、无折扣的。其中前者为分幕式带折扣的，后者是持续无折扣的。而单步半梯度期望Sarsa算法的更新方程为：上述算法没有使用重要度采样，在表格型问题中这样做比较有效

2020-08-21 10:25:49 275

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch9.7-Ch9.11

9.7 非线性函数逼近：人工神经网络前向和循环ANN在强化学习系统中都会使用，但在这里仅用简单的前向神经网络为例来进行探讨。ANN使用的激活函数一般都是S形函数或sigmoid函数，有时也使用非线性整流函数或阶梯函数。ANN一般使用SGD进行训练，并使用反向传播算法。在深度网络中，遇到过拟合问题，防止的方法包括：当模型的性能开始在验证集上下降时停止训练（交叉验证）、修改目标函数限制近似函数的复杂度（正则化）、引入参数依赖减小自由度（如参数共享）、随机丢弃法等。也可以使用深度置信网络，也是一种层级连接

2020-08-07 15:42:47 382

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch9.1-Ch9.4

9.1 价值函数逼近目前使用的方法对于状态的更新知识简单地对目标状态进行更新而其他状态度保持不变，而本章会对目标状态的更新进行泛化，使其他状态的估计价值同样发生变化，原则上可以使用所有现存的函数逼近方法来进行价值函数预测，包括神经网络。决策树以及各种多元回归。应用于强化学习的函数逼近方法需要能够进行在线学习，并且能够处理非平稳目标函数。9.2 预测目标在表格型情况中，不需要对连续函数进行衡量，学习到的价值函数可以和真实的价值函数精确相等，并且每个状态下学习的价值函数都是解耦不相关的。但是在函数逼近

2020-08-06 15:03:45 275

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch8.4-Ch8.11

8.4 优先遍历模拟转移中，均匀采样通常不是最好的，如果模拟转移和价值函数更新集中在某些特定的二元组中，能更加高效地进行学习。在进行价值更新的时候，可以从使得价值法身变化的任何状态进行反向计算，同时更新前导状态的价值，称为反向聚焦。而在进行反向推演传播的时候，价值改变更大的状态的前导状态也更可能改变很大，且不同的前导状态应该被赋予不同的权值，从而引发优先级遍历的思想，维护一个优先队列，其按照价值改变的大小来进行优先级排序，当队列头部的二元组被更新时，也会计算它对前导二元组的影响，并计算是否需要插入优先队

2020-08-04 21:15:42 337

原创 Reinforcement Learning - An Introduction手写总结Ch4-6

2020-07-21 19:50:05 130

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch6.4-Ch6.9

6.4 Sarsa：on-policy下的时序差分控制TD方法学习的是动作价值函数，更新方程为：其中Qhat表示对Q的估计，不同的算法对Qhat有不同的计算。Sarsa算法:更新方程为：由于算法的每次更新需要用到当前时刻的S和A，和下一时刻的R、S、A，所以取首字母称为sarsa。Sarsa是一种on-policy的算法，与MC算法相似，需要保持各个状态被多次访问才能收敛，使用软性策略保证探索。Sarsa算法流程：6.5 Q-learning：off-policy下的时序差分控制Q

2020-07-21 19:35:42 283

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.3-Ch5.7

5.3蒙特卡洛控制采用蒙特卡洛解决控制问题，采用类似于DP算法中广义策略迭代的方式。在策略迭代中，同时维护近似的策略和近似的价值函数，通过不断迭代逼近真实的价值函数，并且根据价值函数调优策略。策略评估：采用与DP中完全相同的方法，只要每个状态动作都被经历了无数次，MC即可以收敛。策略改进：采用贪心算法，每次选择当前状态下最大的动作价值函数。可证明根据贪心法，总能每步都得到更优的策略，且最终总会找到最优策略：基于试探性出发的MC方法如下:5.4没有试探性出发假设的蒙特卡洛控制on-poli

2020-07-20 11:46:21 254

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch4.1-Ch4.5

本章节主要介绍了基于动态规划来求解最优策略。4.1策略评估对于策略π\piπ，其状态价值函数定义如下：理论上，知道了系统的动态特性和用户的策略，则基于上述公式，仅有状态价值函数为未知数，而对s个状态，有s个等式，可以直接求解，但是由于计算繁琐，采用迭代法求解。其中，初始化时，除了终止状态的价值函数为0，其余均可以是随机数，采用以下式子迭代：理论上k趋于无穷，终会收敛，但是我们可以在变化很小的时候就停止计算。期望更新指根据给定的策略，得到所有可能的单步转移后的即时收益和每个后继状态的旧的价值函

2020-07-20 07:21:39 181

原创 Reinforcement Learning - An Introduction手写总结Ch1-3

2020-07-04 09:51:12 169

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch2.9-Ch3.3

2.9 关联搜索（上下文相关的赌博机）之前的任务均为非关联的任务，即不同的动作和不同的情景之间没有联系，在这种任务中，当任务是平稳的时候（收益的概率分布不随时间而变化），agent试图找到一个最佳的动作；当任务是非平稳的时候（收益的概率分布随时间变化），最佳动作会随着时间的变化而变化，此时它会尝试去追踪最佳动作的变化。而在一般的强化学习问题中，往往不止一种情景，agent的目标应该是学习从一个特定情境到最优动作的映射。2.10 本章小结3.1“agent-环境”交互接口3.2 目标和收益3.3

2020-07-03 22:34:56 330

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch10.1-Ch10.6

10.1 分幕式半梯度控制将上一章中的半梯度一寸方法延伸到动作价值上是本节的主要内容，在更新时可以使用qπ(St,At)q_\pi(S_t,A_t)qπ(St,At)的任意近似，例如一些常见的回溯值，如完整的蒙特卡洛回报或n步Sarsa回报。动作价值函数预测的梯度下降更新的一般形式是：例如单步Sarsa算法的更新可以表示为：该方法成为分幕式半梯度单步Sarsa，对于一个固定的策略该方法的收敛情况和TD(0)一样具有相同的误差边界。具体的伪代码如下：...

2020-07-02 14:32:19 449

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch9.5-Ch9.6

9.5 线性方法的特征构造在构造特征时，线性方法有收敛保证，且在实践中，在数据和计算方面可以非常高效。选择适合于任务的特征时将先验知识加入强化学习系统的一个重要方式，这些特征应该提取状态空间中最通用的信息，比如要对集合对象进行评估的时候可以选择形状、颜色、大小等，要评估一个移动机器人的状态的时候可以选择位置、电量、声呐读数等。但是线性方法的一个局限性在于它无法表示特征之间的相互作用，比如特征iii仅在特征jjj不存在的情况下才是最好的，这样的特征间的相互作用需要把多个状态维度结合起来加入特征中。接下来

2020-06-23 14:43:33 568

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch8.1-Ch8.3

本章从一个统一视角来考虑一系列的强化学习方法，将整合之前所讲的有模型方法和无模型方法。基于模型的方法具备环境模型，如动态规划和启发式搜索。无模型方法没有环境模型，如蒙特卡洛方法和时序差分方法。有模型方法将规划作为其主要部分，无模型方法则主要依赖于学习。两类方法的核心都是价值函数的计算，并且都基于对未来事件的展望，来计算一个回溯价值，然后使用它作为目标更新一个近似价值函数。8.1 模型和规划环境模型，是指agent用来预测环境对于其动作的反应，也就是给定一个状态和动作，作为环境的反应结果，模型

2020-06-12 19:24:50 346

原创 Reinforcement Learning - An Introduction强化学习读书笔记 Ch7.1-Ch7.7

本节将介绍一种针对前面单独的蒙特卡洛方法和时序差分方法的推广版本，来得到更好的性能。n步时序差分方法的一个好处是可以解决之前的更新时刻的不灵活问题，单步的时序差分方法，相同的时刻步长决定了动作变化的频率以及执行自举操作的时间段，而在很多应用中希望尽可能地根据任何变化来更新动作，因为单步的时刻步长总是一样的，所以需要一定的折中。而n步时间差分学习可以解决该不灵活问题。7.1 n步时间差分预测考虑在固定策略下利用多幕采样序列估计状态值函数问题。蒙特卡洛方法是根据从某一状态开始到终止状态的收益序列，然后

2020-06-12 00:01:29 315

qq_41608822的博客