- 博客(4)
- 资源 (32)
- 收藏
- 关注
转载 David Silver强化学习公开课(三):动态规划寻找最优策略
本讲着重讲解了利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。本讲是整个强化学习课程核心内容的引子。 简介 Introduction动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问...
2018-10-31 09:44:19 4540
转载 David Silver强化学习公开课(二):马尔科夫决策过程
在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。 马尔科夫过程 Markov Process 马尔科夫性 Markov Property某一状态信息包含了所有相关的历史,只要当前...
2018-10-29 09:10:13 2733
转载 David Silver强化学习公开课(一):简介
本讲是对于强化学习整体的一个简单介绍,描述了强化学习是什么,解决什么问题,大概用什么样的方式来解决问题。介绍了强化学习中常用的概念。这些概念非常重要,贯穿于整个强化学习始终,但是在这一讲,读者仅需对这些概念有个初步的印象。 引子强化学习在不同领域有不同的表现形式:神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。强化学习是机器学习的一个分支:监督学习、无监督学习、...
2018-10-24 20:27:55 2902
原创 Ray: Scheduling and Actor placement
Ray是面向增强学习场景的分布式计算框架,相关介绍参考博客。本篇文章主要对 Ray中 remote函数的调度以及 Actor抽象的放置进行介绍。 一、Remote函数的调度1. Remote函数的定义Remote函数时Ray分布式计算中的核心概念,一般如下所示:@ray.remotedef add(a, b): return a + bid_c = add....
2018-10-24 19:26:53 2595
parameter server 论文中文翻译
2018-08-13
Real-Time Machine Learning: The Missing Pieces 中文翻译
2018-04-25
Android开发从入门到精通学习文档
2016-03-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人