强化学习
文章平均质量分 86
本专栏以伦敦大学学院 UCL-Course课程和台湾大学李宏毅的课程为基础,为大家介绍强化学习的基础算法和最新的深度强化学习模型
人工智能插班生
双一流大学人工智能方向博士,Google GDE。已经发表SCI论文多篇,CSDN专栏文章、知乎文章近百篇(机器学习专栏、深度学习专栏、强化学习专栏、自然语言处理NLP专栏)
展开
-
机器学习与深度学习系列连载: 第三部分 强化学习(十八) 深度强化学习-模仿学习 Imitation Learning
深度强化学习-模仿学习 Imitation Learning原创 2018-12-11 09:30:51 · 2545 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十七) 深度强化学习- 稀疏奖励该怎么办? Sparse Reward
稀疏奖励该怎么办? Sparse Reward原创 2018-12-10 10:51:41 · 3800 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十六) 深度强化学习- Pathwise Derivative策略梯度
Pathwise Derivative策略梯度我们在使用Critic(评估价值)的过程中,传统的方法只是给一个评估的值得大小,我们利用评估的值,采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价,而且给出actor下一步的建议呢。(就像老师不但把我们作业批改了,然后还给出了怎么做好作业的建议,而传统的Critic知只是一个能给我们批改作业的老师,但...原创 2018-12-09 13:52:23 · 2761 阅读 · 2 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十五) 深度强化学习- Actor-Critic的集大成者:A3C
Actor-Critic的集大成者:A3C原创 2018-12-09 11:05:08 · 609 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十四) 深度强化学习-策略梯度与OpenAI的当家算法:PPO(2)
策略梯度与OpenAI的当家算法:PPO(2)1. 从在线策略到离线策略(on policy and off policy)• On-policy: Agent 学习和交互的环境是同一个环境• Off-policy: Agent 学习和交互的环境是不是同一个环境举例:下棋的时候是自己下棋 就是on policy下棋前先看别人下棋,然后自己总结经验来下棋,就是off policy为什...原创 2018-12-07 10:07:16 · 990 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十三) 深度强化学习-策略梯度与OpenAI的当家算法:PPO(1)
策略梯度与OpenAI的当家算法:PPO原创 2018-12-07 08:34:08 · 1148 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十二) 深度强化学习- Q learning进阶: Double DQN和 Dulling DQN
Q learning进阶: Double DQN和 Dulling DQN原创 2018-12-06 10:02:22 · 888 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十一) 深度强化学习- Q learning的算法剖析
Q learning的算法剖析原创 2018-12-05 10:48:28 · 644 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习
深度强化学习15年2月:Google在nature上的文章,用RL玩atari游戏,可以超越人类玩家表现。16年春天:基于RL的Alphago横扫人类棋手。其实AI被大众所熟知,并不是2012年的imagenet的突破,而是AlphaGo。AlphaGo的核心原理就是深度强化学习。 也就是用深度神经网络实现的强化学习算法。1. 原理复习Agent和EnvironmentAge...原创 2018-12-05 06:45:38 · 771 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(九) 探索与利用
探索与利用本篇系统的介绍了在强化学习领域如何有效的进行探索,给出了几类探索算法,通过引入后悔值,借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性,随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。1. 简介 Introduction探索和利用的困局:利用是做出当前信息下的最佳决定,探索则是尝试不同的行为继而收集更多的信息。最好的长期战...原创 2018-12-04 08:35:26 · 3215 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(八) 整合学习与规划 (Alpha Go 基本原理)
整合学习与规划本篇之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助。本篇即关注这两个问题。通过构建一个模型,个体具备了一定程度的独立思考能力,即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验,个体在解决大规模MDP问题时可以取得更好的结果。本...原创 2018-12-02 08:17:40 · 2142 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(七) 策略梯度
策略梯度前一篇主要讲解的是价值函数的近似,然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a),通过借助策略相关的目标函数梯度的引导,寻找与目标函数的极值,进而得到最优策略。1. 简介 Introduction上一篇主要内容是如何对价值函数进行近似的参数化表达,包括状态价值函数和行为价值函数:随后一个策略可以直接从价值函数中产生,比如使用Ɛ-gr...原创 2018-12-01 07:47:47 · 2841 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(六) 价值函数的近似表示
价值函数的近似表示通过强化学习的基础理论,只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握强化学习的基础理论,是无法较好的解决实际问题的。本篇开始的内容就主要针对如何解决实际问题。本篇主要解...原创 2018-11-30 09:27:03 · 2933 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(五) 不基于模型的控制(SARSA、Q-Learning)
不基于模型的控制通过本篇的学习,我们将会学习到如何训练一个Agent,使其能够在完全未知的环境下较好地完成任务,得到尽可能多的奖励。1.简介 Introduction上一篇主要讲解了在模型未知的情况下如何进行预测。所谓的预测就是评估一个给定的策略,也就是确定一给定策略下的状态(或状态行为对)的价值函数。这篇的内容主要是在模型未知的条件下如何优化价值函数,这一过程也称作模型无关的控制。现实中...原创 2018-11-28 11:25:21 · 1764 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(四) 不基于模型的预测(蒙特卡洛方法MC、时序差分TD)
不基于模型的预测1. 简介 Introduction通过先前的博客,我们明白了如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本篇开始讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是讲述如何直接从Agent与环境的交互来得得...原创 2018-11-27 06:52:07 · 2868 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(三) 动态规划寻找最优策略
动态规划寻找最优策略利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。本节是整个强化学习课程核心内容的开端。1. 简介动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需...原创 2018-11-26 07:15:00 · 2707 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(二) 马尔科夫决策过程 MDP
马尔科夫决策过程 MDP在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。1.马尔科夫过程 Markov Process某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再...原创 2018-11-24 22:58:29 · 1851 阅读 · 3 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(一) 强化学习简介
强化学习简介随着DeepMind公司开发的AlphaGo升级版master战胜围棋世界冠军,其背后应用的强化学习思想受到了广泛关注,也吸引了一批喜欢思考的小伙伴,想一探究竟为什么强化学习的威力这么大。本专栏主要围绕**“大名鼎鼎的围棋程序master”**的主要作者David Silver主讲的UCL-Course-强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,较为系统、全面地介绍了...原创 2018-11-20 06:53:10 · 1527 阅读 · 0 评论