2018年10月_xl.zhang

11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载 David Silver强化学习公开课（三）：动态规划寻找最优策略

本讲着重讲解了利用动态规划来进行强化学习，具体是进行强化学习中的“规划”，也就是在已知模型的基础上判断一个策略的价值函数，并在此基础上寻找到最优的策略和最优价值函数，或者直接寻找最优策略和最优价值函数。本讲是整个强化学习课程核心内容的引子。简介 Introduction动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问...

2018-10-31 09:44:19 4540

转载 David Silver强化学习公开课（二）：马尔科夫决策过程

在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。马尔科夫过程 Markov Process 马尔科夫性 Markov Property某一状态信息包含了所有相关的历史，只要当前...

2018-10-29 09:10:13 2733

转载 David Silver强化学习公开课（一）：简介

本讲是对于强化学习整体的一个简单介绍，描述了强化学习是什么，解决什么问题，大概用什么样的方式来解决问题。介绍了强化学习中常用的概念。这些概念非常重要，贯穿于整个强化学习始终，但是在这一讲，读者仅需对这些概念有个初步的印象。引子强化学习在不同领域有不同的表现形式：神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。强化学习是机器学习的一个分支：监督学习、无监督学习、...

2018-10-24 20:27:55 2902

原创 Ray: Scheduling and Actor placement

Ray是面向增强学习场景的分布式计算框架，相关介绍参考博客。本篇文章主要对 Ray中 remote函数的调度以及 Actor抽象的放置进行介绍。一、Remote函数的调度1. Remote函数的定义Remote函数时Ray分布式计算中的核心概念，一般如下所示：@ray.remotedef add(a, b): return a + bid_c = add....

2018-10-24 19:26:53 2595