强化学习
文章平均质量分 90
部分博客基于2019斯坦福大学最新强化学习课程:CS234,B站可看。
从流域到海域
此人不懒,但他除了干货什么都没有留下。
展开
-
隐马尔可夫模型、最大熵马尔科夫模型、条件随机场
马尔科夫性质(Markov Property)是概率论中的一个概念:当一个随机过程在给的那个现在状态及所有过去状态的情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程具有马尔可夫性。具有马尔可夫性质的过程通常称之为马尔可夫过程。在介绍马尔可夫模型之前,先简单介绍下马尔可夫过程。马尔可夫过程是满足无后效性的随机过程。假设在一个随机过程中,tnt_ntn时刻的状态sns_nsn的条件分布,仅仅与前一个状态sn−.原创 2021-11-14 17:33:09 · 959 阅读 · 2 评论 -
近端策略优化算法(PPO)
策略梯度算法法 (PG)策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为:E^t[∇θlogπθ(at∣st)A^t]\hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t]E^t[∇θlogπθ(at∣st)A^t]其中πθ\pi_\thetaπθ为...原创 2020-02-05 15:53:38 · 3134 阅读 · 1 评论 -
Policy Gradient 算法
常见的policy gradient算法,写出来挺简单的,但是有一个复杂的推导过程,这里就略去了。原创 2019-11-28 22:13:15 · 814 阅读 · 0 评论 -
Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索
Monte Carlo Tree Search为什么要学习MCTS一部分原因是过去12年AI最大的成就莫过于Alpha Go,一个超越任何人类的围棋玩家引入基于模型的RL思想和规划(planning)的好处IntroudctionModel-Based Reinforcement Learning前面的博文:从经验中直接学习价值函数或者策略这篇博文:从经验中直接学习模型(Tra...原创 2019-11-23 21:55:39 · 2451 阅读 · 0 评论 -
Imitation Learning in Large State Spaces 大规模状态空间下的模仿学习
We want RL Algorithm that PerformOptimization(优化)Delayed consequences(延迟结果)Exploration(探索)Generation(泛化)And do it all statistically and computationally efficiently(统计性地,计算高效性地执行以上过程)Generaliza...原创 2019-11-19 21:32:57 · 677 阅读 · 0 评论 -
Deep Q learning: DQN及其改进
Deep Q LearningGeneralizationDeep Reinforcement Learning使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化loss函数Deep Q-Networks(DQNs)使用带权重集w\textbf{w}w的Q-network来表示状态-动作价值函数Q^(s,a;w)≈Q(s,a)\hat{Q}(s,...原创 2019-11-16 17:19:47 · 1465 阅读 · 0 评论 -
CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇博文前半部分介绍DNN、CNN熟悉这些的读者可以跳过,直接看后半部分的Deep Q Learning Part。Generalization为什么要使用网络来做近似。希望能使用强化学习来处理自动驾驶汽车,Atari,消费者市场,医疗,教育等等这些领域一...原创 2019-11-09 18:32:15 · 831 阅读 · 0 评论 -
Planning and Learning
这算是一篇综述性文章,讲的不深,但是了解做planning都有哪些方法。这篇文章里全部使用了Q的说法,因为实现上可能是网络DQN,也可以是经典的Table。Models and PlanningModels指的是Environment Models,可以分为两大类:当前状态和采取的动作作为输入,输出下一个所有可能状态和奖励的分布当前状态和采取的动作作为输入,输出下一个状态和奖励P...原创 2019-11-04 15:03:59 · 390 阅读 · 0 评论 -
Value function approximation
前面的一篇博客:Model-free control:如何从经验中学习一个好的策略到目前为止,我们都假设了可以将价值函数或state-action价值(即Q函数)表示成向量或者矩阵表格表示法很多现实世界的问题会有巨大的状态空间 和/或 动作空间表格表示法是不够用(insufficient)的回顾:强化学习包括Optimization(优化)Delayed consequence...原创 2019-10-28 20:59:06 · 1256 阅读 · 0 评论 -
从SARSA算法到Q-learning with ϵ-greedy Exploration算法
SARSA AlgorithmSARSA代表state,action,reward,next state,action taken in next state,算法在每次采样到该五元组时更新,所以得名SARSA。1: Set1:\ Set1: Set Initial ϵ\epsilonϵ-greedy policy π,t=0\pi,t=0π,t=0, initial ...原创 2019-10-26 22:22:31 · 2634 阅读 · 0 评论 -
ϵ-greedy Policies
ϵ\epsilonϵ-greedy Policies非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上这个策略在论文里一般一句话就可以概括:ϵ\epsilonϵ-greedy policy that selects a random action with probability ϵ\epsilonϵ(不准确) or...原创 2019-10-25 22:36:36 · 5407 阅读 · 0 评论 -
Model-Free Control
Control(making decisions) without a model of how the world works.Evaluation to Control前面的博文介绍了如何衡量一个特定的策略(即对它进行评估)没有给予访问决策过程模型参数的权限取而代之的是,能够从数据/经验中估计这篇博文:如何学习一个好的策略Recall: Reinforcement Lear...原创 2019-10-23 22:16:18 · 782 阅读 · 0 评论 -
Importance Sampling 重要性采样
Importance Sampling(重要性采样),也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍IS,再将其在策略评估中的应用。原创 2019-10-22 21:57:15 · 1078 阅读 · 0 评论 -
Monte Carlo Off Policy Evaluation
前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估 介绍的是On-Policy的策略评估。简而言之,On-Policy就是说做评估的时候就是在目标策略本身上做的评估,而Off-Policy指的是在别的策略上对目标策略做评估。MC Off-Policy Evaluation在某些领域(例如图示)尝试采取动作观察结果代价很大或者风险很高...原创 2019-10-21 22:07:51 · 402 阅读 · 0 评论 -
Temporal Difference - 时序差分学习
这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节,因为TD本身也是一种无模型策略评估方法。原博文有对无模型策略评估方法的详细概述。Temporal Difference(TD)时序差分“if one had to identify one idea as central and novel to reinforcement lea...原创 2019-10-16 00:07:44 · 825 阅读 · 0 评论 -
Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估
这篇博文是另一篇博文Model-Free Policy Evaluation 无模型策略评估的一个小节,因为蒙特·卡洛尔策略评估策略评估本社就是一种无模型策略评估方法,原博文有对无模型策略评估方法的详细概述。基础相关概念如果我们不知道动态模型P/或奖励模型R呢?新内容:在没有模型的条件下进行策略价值评估给定数据/或与环境交互的能力足够计算策略π\piπ的合理估计Mont...原创 2019-10-14 14:46:19 · 1782 阅读 · 0 评论 -
Model-Free Policy Evaluation 无模型策略评估
Mode-Free Policy Evaluation: Policy Evaluation Without Knowing How the World WorksPolicy evaluation without known dynamics & reward modelsThis Lecture: Policy Evaluation在没有权限访问真实MDP模型的条件下估计一...原创 2019-10-12 16:57:59 · 844 阅读 · 0 评论 -
Policy Gradient - 策略梯度
策略梯度(Policy Gradient)在一个包含Actor、Env、Reward Function的强化学习的情景中,Env和Reward Function是你所不能控制的。Actor的策略π\piπ是一个参数为θ\thetaθ的网络输入:以向量或者矩阵表示的机器观察输出:关联到输出层某个神经元的一个动作策略执行的过程可以表示为一个迹(Trajectory)τ=s1,a1,s2...原创 2019-08-26 16:52:57 · 541 阅读 · 0 评论 -
强化学习简介
强化学习How can an intelligent agent learn to make good sequences of decisions?.这一句英文可以概括所有强化学习的关注点:强化学习旨在学习去做出一系列好的决策。因此我们的关注点在一系列决策(sequence of decisions, 英文的sequence含有连续的意思)上。相对于机器学习,强化学习的主体是智能体,可能...原创 2019-08-29 16:28:05 · 949 阅读 · 0 评论 -
Sequential Decision Making under uncertain - 不确定性条件下的序列决策制定
Sequential Decision Making序列决策制定可以被归纳为为下面的交互式闭环过程:目标:选择能够最大化未来全部收益期望的动作(actions)。这可能不一直都是好的标准,但这是大多数强化学习所关注的。但现在也有一些人对distribution honorable强化学习和其他方面有兴趣可能需要平衡即时收益和长期回报可能需要策略化的行为以取得高回报(你可能需要牺牲初...原创 2019-08-29 21:27:27 · 1765 阅读 · 0 评论 -
RL Algorithm Components - 强化学习算法组件
RL Algorithm Components通常包括一个或者更多:Model(模型): world对agent的动作如何改变的一种表示(representation)Policy(策略): 映射agent的state到动作的函数Value function(价值函数): 遵循一个policy处于一个状态/执行一个动作之后的未来奖励Model模型是Agent的world如何对其动作...原创 2019-08-30 10:17:05 · 634 阅读 · 0 评论 -
Exploration and Exploitation - 探索和利用
Exploration and Exploitation(探索和利用)是强化学习需要去平衡的一个点,即我应该去探索新的选项还是充分利用我已经有的选项以取得最大收益(博主注),它是强化学习一个非常重要的点,而且是非常依赖领域的,比如针对顾客、学生、患者等,不同的领域探索和利用的侧重会有所不同。Exploration and ExploitationAgent只能体会到它尝试的那些动作,这明显...原创 2019-08-30 11:40:33 · 2513 阅读 · 0 评论 -
从Markov Process到Markov Decision Process
Recall: Markov Propertyinformation state: sufficient statistic of historyState sts_tst is Markov if and only if:p(st+1∣st,at)=p(st+1∣ht,at)p(s_{t+1}|s_t,a_t)=p(s_{t+1}|h_t,a_t)p(st+1∣st,at)=p(...原创 2019-09-28 20:15:26 · 609 阅读 · 0 评论 -
Evaluation and Control -评估和控制
评估估计/预测一个给定策略的奖励期望。在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。控制最优化:找到最佳的策略。...原创 2019-09-28 20:16:10 · 514 阅读 · 0 评论 -
Compute the Optimal Policy & the Optimal Value 计算最佳策略和计算最佳价值
MDP Control在这节内容里我们不讨论如何学习策略,我们仅仅探讨计算最佳策略。计算最佳策略π∗(s)=argmaxπVπ(s)\pi^*(s)=\mathop{argmax}\limits_{\pi} V^\pi(s)π∗(s)=πargmaxVπ(s)存在一个独一无二的最优价值函数在一个有限horizon内MDP的最优策略是确定的最后一条是一个非常好的原因,能够解答为...原创 2019-10-11 17:24:03 · 1127 阅读 · 0 评论 -
深入了解马尔科夫决策过程(Markov Decision Process)
马尔科夫决策过程(Markov Decision Process, MDP)是时序决策(Sequential Decision Making, SDM)事实上的标准方法。时序决策里的许多工作,都可以看成是马尔科夫决策过程的实例。人工智能里的规划(planning)概念(指从起始状态到目标状态的一系列动作)已经扩展到策略的概念:基于决策理论对于待优化目标函数最优值的计算,策略将所有的时序状态映射到...原创 2019-07-17 17:00:04 · 11829 阅读 · 0 评论